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1 绪论 


寻找 数据 中 模式 的 问题 是 一 个 基本 的 问题 ， 有 着 很 长 的 很 成 功 的 历史 。 例 如 ，16 世 纪 Tycho 
Brahe 的 大 量 的 观测 使 得 Johannes Kepler 发 现行 星 运行 的 经 验 性 规律 ， 这 反 过 来 给 经 典 力学 的 发 
展 提供 了 跳板 。 类 似 地 ， 原 子 光 谱 的 规律 的 发 现在 20 世 纪 初 期 对 于 量子 力学 的 发 展 和 证 明 有 着 
重要 的 作用 。 模 式 识别 领域 关注 的 是 利用 计算 机 算法 自动 发 现 数据 中 的 规律 ， 以 及 使 用 这 些 规 
律 采取 将 数据 分 类 等 行动 。 

考虑 手写 数字 识别 的 例子 ， 如 图 1.1 所 示 。 每 个 数字 对 应 一 个 28 x 28 像 素 的 图 像 ， 因 此 可 以 
表示 为 一 个 由 784 个 实数 组 成 的 向 量 z。 目 标 是 建立 一 个 机 器 ， 能 够 以 这 样 的 向 量 z 作 为 输入 ， 
以 数字 0 到 9 为 输出 。 这 不 是 一 个 简单 的 问题 ， 因 为 手写 体 变化 多 端 。 这 个 问题 可 以 使 用 人 工 编 
写 的 规则 解决 ， 或 者 依据 笔画 的 形状 启发 式 地 区 分 数字 ， 但 是 实际 中 这 样 的 方法 导致 了 规则 数 
量 的 激增 ， 以 及 不 符合 规则 的 例外 等 等 ， 并 且 始 终 给 出 较 差 的 结果 。 

使 用 机 器 学 习 的 方法 可 以 得 到 好 得 多 的 结果 。 这 个 方法 中 ,一 个 由 入 个 数字 {zx1,…, XN} 组 
成 的 大 的 集合 被 叫做 训练 集 (training set) ， 用 来 调节 模型 的 参数 。 训 练 集中 数字 的 类 别 实现 已 
知 ， 通 常 是 被 独立 考察 、 人 工 标 注 的 。 我 们 可 以 使 用 目标 向 量 (target vector) t 来 表示 数字 的 类 
别 ， 它 代表 对 应 数字 的 标签 。 使 用 向 量 来 表示 类 别 的 合适 的 技术 将 在 后 面 讨 论 。 注 意 对 于 每 个 
数字 图 像 z 只 有 一 个 目标 向 量 t。 

运行 机 器 学 习 算法 的 结果 可 以 被 表示 为 一 个 函数 y(z)， 它 以 一 个 新 的 数字 的 图 像 z 为 输入 ， 
产生 向 量 y， 与 目标 向 量 的 形式 相同 。 函 数 Vy(zZ) 的 精确 形式 在 训练 〈training) 阶段 被 确定 ， 这 
个 阶段 也 被 称 为 学 习 (learning) 阶段 ， 以 训练 数据 为 基础 。 一 旦 模型 被 训练 出 来 ， 它 就 能 确定 
新 的 数字 的 图 像 集 合 中 图 像 的 标签 。 这 些 新 的 数字 的 图 像 集合 组 成 了 测试 集 (test set) 。 正 确 
分 类 与 训练 集 不 同 的 新 样本 的 能 力 叫 做 泛 化 〈generalization) 。 在 实际 应 用 中 ， 输 入 向 量 的 变 
化 性 是 相当 大 的 ， 以 至 于 训练 数据 只 所 有 可 能 的 输入 向 量 中 相当 小 得 一 部 分 ， 所 以 泛 化 是 模式 
识别 的 一 个 中 心 问 题 。 

对 于 大 部 分 实际 应 用 ， 原 始 输入 向 量 通常 被 预 处 理 (pre-processed) ， 变 换 到 新 的 变量 空 
间 。 人 们 期 望 在 新 的 变量 空间 中 模式 识别 问题 可 以 更 容易 地 被 解决 。 例 如 ， 在 数字 识别 的 问题 
中 ， 数 字 的 图 像 通常 被 转化 缩放 ， 使 得 每 个 数字 能 够 被 包含 到 一 个 固定 大 小 的 盒子 中 。 这 极 大 
地 减少 了 每 个 数字 类 别 的 变化 性 ， 因 为 现在 所 有 数字 的 位 置 和 大 小 现在 相同 ， 这 使 得 后 续 的 
区 分 不 同类 别 的 模式 识别 算法 变 得 更 加 容易 。 这 个 预 处理 阶 段 有 时 被 叫做 特征 抽取 (feature 
extraction) 。 注 意 新 的 测试 集 必须 使 用 与 训练 集 相 同 的 方法 进行 预 处 理 。 

为 了 加 快 计算 速度 ， 也 可 能 进行 预 处 理 。 例 如 ， 如 果 目 标 是 高 清 视频 中 得 实时 人 脸 检 测 ， 计 
算 机 每 秒 钟 必须 处 理 大 量 的 像素 。 将 这 些 像素 直接 传递 给 一 个 复杂 的 模式 识别 算法 在 计算 上 是 
不 可 行 的 。 相 反 ， 目 标 是 找到 可 以 快速 计算 的 有 用 的 特征 ， 这 些 特征 还 能 够 保存 有 用 的 判别 信 
息 使 得 人 脸 和 非 人 脸 可 以 被 区 分 开 。 这 些 特 征 之 后 被 用 作 模 式 识别 算法 的 输入 。 例 如 ， 一 个 所 
形 小 区 域内 图 像 灰 度 的 平均 值 可 以 被 快速 计算 (Viola and Jones, 2014) ， 并 且 一 组 这 样 的 特征 
被 证 明 在 快速 人 脸 检测 中 很 有 效 。 由 于 这 样 的 特征 的 数量 小 于 像素 的 数量 ， 因 此 这 种 预 处 理 代 
表 了 一 种 形式 的 维 数 降低 。 必 须 注 意 ， 由 于 在 预 处 理 阶 段 信息 通常 被 遗弃 ， 因 此 如 果 信 息 对 于 
问题 的 解决 很 重要 的 话 ， 系 统 整 体 的 精度 会 下 降 。 

训练 数据 的 样本 包含 输入 向 量 以 及 对 应 的 目标 向 量 的 应 用 叫做 有 监督 学 习 (supervised 
learning) 问题 。 数 字 识 别 就 是 这 个 问题 的 一 个 例子 ， 它 的 目标 是 给 每 个 输入 向 量 分 配 到 有 限 数 


OZ Sd 
SO7 FA 















































图 1.1: 来 自 美国 邮政 编码 的 手写 数字 的 例子 


9 
wwaibbt.com DODDDDDOD 


量 离散 标签 中 的 一 个 ， 被 称 为 分 类 (classification) 问题 。 如 果 要 求 的 输出 由 一 个 或 者 多 个 连续 
变量 组 成 ， 那 么 这 个 任务 被 称 为 回归 (regression) 。 回 归 问 题 的 一 个 例子 是 化 学 药品 制造 过 程 
中 产量 的 预测 。 在 这 个 问题 中 ， 输 入 由 反应 物 、 温 度 、 压 力 组 成 。 

在 其 他 的 模式 识别 问题 中 ， 训 练 数 据 由 一 组 输入 向 量 z 组 成 ， 没 有 任何 对 应 的 目标 值 。 
在 这 样 的 无 监督 学 习 (unsupervised learning) 问题 中 ， 目 标 可 能 是 发 现 数据 中 相似 样本 的 
分 组 ， 这 被 称 为 聚 类 (clustering) ， 或 者 决定 输入 空间 中 数据 的 分 布 ， 这 被 称 为 密度 估计 
(density estimation) ， 或 者 把 数据 从 高 维 空间 投影 到 二 维 或 者 三 维 空间 ， 为 了 数据 可 视 化 
(visualization) 。 

最 后 ， 反 馈 学 习 (reinforcement learning) (Sutton and Barto, 1998) 技术 关注 的 问题 是 在 给 
定 的 条 件 下 ， 找 到 合适 的 动作 ， 使 得 奖励 达到 最 大 值 。 这 里 ， 学 习 问 题 没有 给 定 最 优 输出 的 用 
例 。 这 些 用 例 必须 在 一 系列 的 实验 和 错误 中 被 发 现 。 这 与 有 监督 学 习 相反 。 通 常 ， 有 一 个 状态 
和 动作 的 序列 ， 其 中 学 习 算 法 与 环境 交互 。 在 许多 情况 下 ， 当 前 动作 不 仅 影 响 直 接 的 奖励 ， 也 
对 所 有 后 续 时 刻 的 奖励 有 影响 。 例 如 ， 通 过 使 用 合适 的 反馈 学 习 技 术 ， 一 个 神经 网 络 可 以 学 
会 backgammon 游 戏 的 玩法 ， 并 且 玩 得 很 好 (Tesauro, 1994) 。 这 里 神经 网 络 必 须 学 习 把 一 大 组 
位 置信 息 、 般 子 投掷 的 结果 作为 输入 ， 产 生 一 个 移动 的 方式 作为 输出 。 通 过 让 神经 网 络 自己 和 
自己 玩 一 百 万 局 ， 这 个 目的 就 可 以 达到 。 一 个 主要 的 挑战 是 backgammon 游 戏 会 涉及 到 相当 多 次 
的 移动 ， 但 是 只 有 在 游戏 结束 的 时 候 才 能 给 出 奖励 (以 胜利 的 形式 ) 。 奖 励 必须 被 合理 地 分 配 
给 所 有 引起 胜利 的 移动 步骤 。 这 些 移动 中 ， 有 些 移动 很 好 ， 其 他 的 移动 不 是 那么 好 。 这 是 信用 
分 配 (credit assignment) 问题 的 一 个 例子 。 反 馈 学 习 的 一 个 通用 的 特征 是 探索 (exploration) 和 
利用 (exploitation) 的 折 中 。 探索 是 指 系统 尝试 新 类 型 的 动作 ,，“ 利用 是 指 系统 使 用 已 知 能 产 
生 较 高 奖励 的 动作 。 过 分 地 集中 于 探索 或 者 利用 都 会 产生 较 差 的 结果 。 反 馈 学 习 继续 是 机 器 学 
习 研 究 中 得 一 个 活跃 的 领域 。 然 而 ， 详 细 讨 论 反 馈 学 习 不 在 本 书 的 范围 内 。 

虽然 这 些 任 务 中 每 一 个 都 需要 自己 的 工具 和 技术 ， 但 是 在 这 些 任 务 背 后 的 许多 关键 思想 都 是 
相通 的 。 本 章 的 主要 目标 是 以 一 种 相对 非 正式 的 形式 介绍 最 重要 的 概念 ， 并 且 使 用 简单 的 例子 
来 说 明 。 稍 后 在 本 书 中 ， 我 们 将 看 到 同样 的 思想 以 更 加 复杂 的 模型 的 形式 重新 出 现 ， 这 些 模型 
能 够 应 用 于 真实 世界 中 模式 识别 的 应 用 中 。 本 章 也 将 介绍 将 自始至终 在 本 书 中 使 用 的 三 个 重要 
工具 : 概率 论 、 决 策 论 、 信 息 论 。 虽 然 这 些 东 西 听 起 来 让 人 感觉 害怕 ， 但 是 实际 上 它们 非常 直 
观 。 并 且 ， 在 实际 应 用 中 ， 如 果 想 让 机 器 学 习 技 术 发 挥 最 大 作用 的 话 ， 清 楚 地 理解 它们 是 必须 
的 。 

















1.1 例子 : 多 项 式 曲 线 拟 合 


我 们 以 一 个 简单 的 回归 问题 开始 。 本 章 中 ,我 们 将 以 这 个 问题 为 例 ， 说 明 许多 关键 的 概念 。 
假设 我 们 观察 到 一 个 实 值 输入 变量 zx， 我 们 想 使 用 这 个 观察 来 预测 实 值 目 标 变量 的 值 。 对 于 这 
个 目的 ， 一 个 很 好 的 方法 是 考虑 一 个 使 用 已 知 的 产生 方式 人 工 制造 出 的 例子 ， 因 为 这 样 我 们 就 
知道 生成 数据 的 精确 过 程 ， 从 而 能 够 和 我 们 学 习 到 得 模型 进行 比较 。 这 个 例子 的 数据 由 函 
数 sin(2rz) 产 生 ， 目 标 变 量 带 有 随机 的 噪声 。 详 细 的 描述 见 附录 A。 

现在 假设 给 定 一 个 训练 集 。 这 个 训练 集 由 z 的 NN 次 观测 组 成 ， 写 作 x 三 (x1,…, zn)*， 伴 随 这 
对 应 的 t 的 观测 值 ， 记 作 t = (t1,…,ty)”。 图 1.2 展 示 了 由 NN = 10 个 数据 点 组 成 的 图 像 。 图 1.2 中 
的 输入 数据 集合 x 通过 选择 zn(n = 1,.…., 入) 的 值 来 生成 。 这 些 zx 均 匀 分 布 在 区 间 [0, 1]， 目 标 数 
据 集 t 的 获得 方式 是 : 首先 计算 函数 sin(2rz) 的 对 应 的 值 ， 然 后 给 每 个 点 增加 一 个 小 的 符合 高 斯 
分 布 的 随机 噪声 〈 高 斯 分 布 将 在 1.2.4 节 讨论 ) ， 从 而 得 到 对 应 的 如 的 值 。 通 过 使 用 这 种 方式 产 
生 数 据 ， 我 们 利用 了 许多 真实 数据 集合 的 一 个 性 质 ， 即 它们 拥有 一 个 内 在 的 规律 ， 这 个 规律 是 
我 们 想 要 学 习 的 ， 但 是 独自 的 观察 被 随机 噪声 干扰 。 这 种 噪声 可 能 由 一 个 本 质 上 随机 的 过 程 产 
生 ， 例 如 放射 性 衰变 。 但 是 更 典型 的 情况 是 由 于 存在 没有 被 观察 到 的 具有 变化 性 的 噪声 源 。 

我 们 的 目标 是 利用 这 个 训练 集 预测 对 于 输入 变量 的 新 值 £ 的 目标 变量 的 值 {。 正 如 我 们 将 要 看 
到 的 那样 ， 这 涉及 到 隐 式 地 发 现 内 在 的 函数 sin(2rz)。 这 本 质 上 是 一 个 困难 的 问题 ， 因 为 我 们 不 
得 不 从 有 限 的 数据 中 生成 。 并 且 观 察 到 得 数据 被 噪声 干扰 ， 因 此 对 于 一 个 给 定 的 2， 合 适 的 1 值 
具有 不 确定 性 。 概 率 论 在 1.2 节 讨论 ) 提供 了 一 个 框架 ， 用 来 以 精确 的 数学 的 形式 描述 这 种 不 
确定 性 。 决 策 论 在 1.5 节 讨论 ) 让 我 们 能 够 根据 合适 的 标准 ， 利 用 这 种 概率 的 表示 ， 进 行 最 优 
的 预测 。 
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0 1 
图 1.2: 由 N = 10 个 数据 点 组 成 的 训练 集 的 图 像 ， 用 蓝 色 圆圈 标记 。 每 个 数据 点 由 输入 变量 z 的 观测 以 及 


对 应 的 目标 变量 t 组 成 。 绿 色 曲 线 给 出 了 用 来 生成 数据 的 sin(2xx) 通 数 。 我 们 的 目标 是 对 于 某 些 新 的 2 值 ， 
预测 t 的 值 ， 而 无 需 知道 绿色 曲线 。 


t tn 
Yy(Tn, w) 
Wn 2 


图 1.3: 误差 函数 (1.2) 对 应 于 每 个 数据 点 与 函数 y(zx,w) 之 间 位 移 〈 绿 色 垂 直线 ) 的 平方 和 (的 一 半 ) 。 





但 是 现在 ， 我 们 要 用 一 种 相当 非 正式 的 、 相 当 简单 的 方式 来 进行 曲线 拟 合 。 特 别 地 ， 我 们 将 
使 用 下 面 形式 的 多 项 式 函 数 来 拟 合 数据 : 


M 
y(z, WwW) = wo + wiz 十 Wo2Z2 十.. .十 rz 一 六 wj (1.1) 
j=0 


其 中 M 是 多 项 式 的 阶 数 (order) ， 忆 表示 z 的 7 次 需 。 多 项 式 系数 w0,….. ,wxm 整 体 记 作 向 量 w。 
注意 ， 虽 然 多 项 式 函 数 y(7x,w) 是 x 的 一 个 非 线 性 函数 ， 它 是 系数 ww 的 一 个 线性 函数 。 类 似 多 项 式 
函数 的 这 种 关于 未 知 参数 满足 线性 关系 的 函数 有 着 重要 的 性 质 ， 被 叫做 线性 模型 ， 将 在 第 3 章 和 
第 4 章 充分 讨论 。 


未 效 的 值 可 D0 这 可 以 通过 最 小 化 误差 函数 
(error function) 抑 实现 。 误 差 函 数 衡量 了 六 意 给 定 的 ww 值 ， 函 数 y(zx, 1w) 与 训练 集 数 据 
的 差别 。 一 个 简单 的 应 用 广泛 的 误差 函数 是 每 个 数据 点 zw 的 预测 值 y(zxn, 2w) 与 目标 值 ty 的 平方 
和 。 所 以 我 们 最 小 化 


1 N 
E(w) 一 9 {yl 1w) 如 (1.2) 
n=1 


其 中 ， 因 子 3 是 为 了 后 续 运 算 方便 而 加 入 的 。 我 们 将 在 后 续 章节 中 讨论 选择 这 个 误差 函数 的 原 
因 。 现 在 ,我 们 只 是 简单 地 注意 一 下 它 是 一 个 非 负 的 量 ， 并 且 当 且 仪 当 函 数 y(x,w) 对 所 有 的 训 
练 数据 点 均 做 出 正确 预测 时 ,误差 函数 为 零 。 平 方 和 误差 函数 的 儿 何 表 示 见 图 1.3。 

我 们 可 以 通过 选择 使 得 刀 (w) 尽 量 小 的 ww 来 解决 曲线 拟 合 问题 。 由 于 误差 函数 是 系数 ww 的 二 
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图 1.4: 不 同 阶 数 的 多 项 式 曲线 ， 用 红色 曲线 表示 ， 拟 合 了 图 1.2 中 的 数据 集 。 


次 函数 ， 因 此 它 关 于 系数 的 导数 是 ww 的 线性 函数 ， 所 以 误差 函数 的 最 小 值 有 一 个 唯一 解 ， 记 
作 w*， 可 以 用 解析 的 方式 求 出 。 最 终 的 多 项 式 函 数 由 函数 y(zx,2w*) 给 出 。 

选择 多 项 式 的 阶 数 M 也 是 一 个 问题 。 正 如 我 们 即将 看 到 的 那样 ， 这 是 一 个 被 称 为 模型 对 比 
(model comparison) 或 者 模型 选择 (model selection) 的 重要 问题 的 一 个 特例 。 在 图 1.4 中 ， 我 
们 给 出 了 4 个 拟 合 多 项 式 的 结果 。 多 项 式 的 阶 数 分 别 为 M = 0,1,3,9， 数 据 集 是 图 1.2 所 示 的 数 
据 


我 们 注意 到 常数 (M = 0) 和 一 阶 (MM = 1) 多 项 式 对 于 数据 的 拟 合 效果 相当 差 ， 很 难 代 表 
函数 sin(2rz)。 对 于 图 1.4 中 给 出 的 例子 ， 三 阶 〈M = 3) 多 项 式 似 乎 给 出 了 对 函数 sin(2rz) 的 最 
好 的 拟 合 。 当 我 们 达到 更 高 阶 的 多 项 式 (M = 9) ， 我 们 得 到 了 对 于 训练 数据 的 一 个 完美 的 拟 
合 。 事 实 上 ， 多 项 式 函 数 精确 地 通过 了 每 一 个 数据 点 ，E(w*) = 0。 然 而 ， 拟 合 的 曲线 剧烈 震 
荡 ， 就 表达 函数 sin(27z) 而 言 表现 很 差 。 这 种 行为 叫做 过 拟 合 (over-fitting) 。 

目标 是 通过 对 新 数据 的 预测 实现 良好 的 泛 化 性 。 我 们 可 以 定量 


罕 模 型 也 与 到 的 关系 。 考 察 的 方式 为 : 考虑 一 个 额外 的 测试 集 ， 这 个 测试 集 由 100 个 数据 
点 组 成 ， 这 100 个 数据 点 的 生成 方式 与 训练 集 的 生成 方式 完全 相同 ， 但 是 在 目标 值 中 包含 的 随机 


噪声 的 值 不 同 。 对 于 每 个 MM 的 选择 ， 我 们 之 后 可 以 用 公式 〈12) 计算 训练 集 的 E(w*)， 也 可 以 
计算 测试 集 的 B(w”)。 有 时 候 使 用 根 均 方 (RMS) 误差 更 方便 。 这 个 误差 由 下 式 定义 : 


ERMS = V2E(w)/N (1.3) 


其 中 ， 除 以 N 让 我 们 能 够 以 相同 的 基础 对 比 不 同 大 小 的 数据 集 ， 平方根 确 保 了 ErMms 与 目标 
变量 t 使 用 相同 的 规模 和 单位 进行 度量 。 图 1.5 展 示 了 对 于 不 同 的 M 值 ， 训 练 数据 和 测试 数据 
的 RMS 误 差 。 测 试 集 的 误差 衡量 了 对 于 新 观察 到 的 数据 z， 我 们 预测 的 值 的 效果 的 好 坏 。 根 据 
图 15， 我 们 看 到 小 的 M 值 会 造成 较 大 的 测试 集 误 差 ， 这 可 以 归 因 于 对 应 的 多 项 式 函 数 相当 不 灵 
活 ， 不 能 够 反映 出 sin(2rz) 的 震荡 。 当 M 的 取 值 为 3 < M < 8 时 ， 测 试 误差 较 小 ， 对 于 生成 函 
数 sin(2rz) 也 能 给 出 合理 的 模拟 。 对 于 W = 3 的 情形 ， 可 以 从 图 1.4 中 看 出 。 
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图 1.5: 公式 (1.3) 定义 的 根 均 方 误差 的 图 像 ， 分 别 在 训练 数据 集 上 和 独立 的 测试 数据 集 上 对 于 不 同 
的 M 进 行 了 计算 。 





M=0 M=1 M=3 M=9 
ws| 019 082 0.31 0.35 
wt -1.27 7.99 232.37 
-25.43 -5321.83 
0 17.37 48568.31 
ww -231639.30 
ww 640042.26 
we -1061800.52 
1 1042400.18 
Dk -557682.99 
ws 125201.43 





表 1.1: 不 同 阶 数 的 多 项 式 的 系数 w* 的 值 。 观 察 随 着 多 项 式 阶 数 的 增加 ， 系 数 的 大 小 是 如 何 剧 烈 增 大 的 。 


对 于 M = 9 的 情形 ， 训 练 集 的 误差 为 ?9， 这 符合 我 们 的 预期 ， 因 为 此 时 的 多 项 式 函 数 有 10 个 
自由 度 ， 对 应 于 10 个 系数 wo,.…., we， 所 以 可 以 调节 模型 的 参数 ， 使 得 模型 与 训练 集中 的 10 个 数 
据点 精确 匹配 。 然 而 ， 正 如 我 们 在 图 1.4 中 看 到 的 那样 ， 测 试 集 误差 变 得 非常 大 ， 对 应 的 通 
数 y(z,2w*) 表 现 出 剧烈 的 震荡 。 

这 可 能 看 起 来 很 矛盾 ， 因 为 给 定 阶 数 的 多 项 式 包 含 了 所 有 低 阶 的 多 项 式 函 数 作为 特殊 情 
况 。M = 9 的 多 项 式 因 此 能 够 产生 至 少 与 M = 3 一 样 好 的 结果 。 并 且 ， 我 们 可 以 猜想 ， 对 于 新 
数据 最 好 的 预测 是 sin(2rz)， 这 是 生成 数据 所 使 用 的 函数 (我们 稍 后 将 会 看 到 确实 是 这 样 ) 。 我 
们 知道 函数 sin(2rz) 的 震级 数 展开 包 含 所 有 阶 数 的 项 ， 所 以 我 们 可 能 会 以 为 结果 会 随 着 M 的 增 
大 而 单调 地 变 好 。 

我 们 可 以 更 深刻 地 思考 这 个 问题 ， 通 过 考察 不 同 阶 数 多 项 式 的 系数 w* 的 值 ， 如 表 1.1 所 示 。 
我 们 看 到 随 着 M 的 增 大 ， 系 数 的 大 小 通常 会 变 大 。 对 于 M = 9 的 多 项 式 ， 通 过 调节 系数 ， 让 系 
数 取 相当 大 的 正 数 或 者 负数 ， 多 项 式 函 数 可 以 精确 地 与 数据 匹配 ， 但 是 对 于 数据 之 间 的 点 (万 
其 是 临近 区 间 端 点 处 的 点 ) ， 从 图 1.4 可 以 看 到 函数 表现 出 剧烈 的 震荡。 直觉 上 讲 ， 发 生 了 这 样 
i mS 

机 噪声 相符 。 

考察 给 定 模型 的 行为 随 着 数据 集 规模 的 变化 情况 也 很 有 趣 ， 如 图 1.6 所 示 。 我 们 可 以 看 到 ， 
对 已 一 个 给 定 的 模型 复杂 度 ， 当 数据 集 的 规模 增加 时 ， 过 拟 合 问题 变 得 不 那么 严重 。 另 一 种 表 
述 方式 是 ， 数 据 集 规 模 越 大 ， 我 们 能 够 用 来 拟 合 数据 的 模型 就 越 复杂 〈 即 越 灵 活 ) 。 一 个 粗略 
的 启发 是 ， 数 据点 的 数量 不 应 该 小 于 模型 的 可 调节 参数 的 数量 的 若干 倍 〈 比 如 5 或 10) 。 然 而 ， 
正如 我 们 将 在 第 3 章 看 到 的 那样 ， 参 数 的 数量 对 于 模型 复杂 度 的 大 部 分 合理 的 度量 来 说 都 不 是 必 
要 的 。 
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图 1.6: 使 用 M = 9 的 多 项 式 对 M = 15 个 数据 点 ( 左 图 ) 和 NN = 100 个 数据 点 ( 右 图 ) 通过 最 小 化 平方 和 
误差 函数 的 方法 得 到 的 解 。 我 们 看 到 增 大 数据 集 的 规模 会 减 小 过 拟 合 问题 。 





并 且 ， 令 人 无 法 满意 的 一 点 是 ， 不 得 不 根据 可 得 到 的 训练 集 的 规模 限制 参数 的 数量 。 似 乎 更 
加 合理 的 是 ， 根 据 待 解决 的 问题 的 复杂 性 来 选择 模型 的 复杂 性 。 我 们 将 会 看 到 ， 寻 找 模型 参数 
的 最 小 平方 方法 代表 了 最 大 似 然 (maximum likelihood) (将 在 1.2.5 节 讨论 ) 的 一 种 特殊 情形 ， 
并 且 过 拟 合 问题 可 以 被 理解 为 最 大 似 然 的 一 个 通用 属性 。 通 过 使 用 一 种 贝 叶 斯 (Bayesian) 方 
法 ， 过 拟 合 问题 可 以 被 避免 。 我 们 将 会 看 到 ， 从 贝 叶 斯 的 观点 来 看 ， 对 于 模型 参数 的 数量 超过 
数据 点 数量 的 情形 ， 没 有 任何 难 解 之 处 。 实 际 上 ， 一 个 贝 叶 斯 模型 中 ， 参 数 的 有 效 (effective) 
数量 会 自动 根据 数据 集 的 规模 调节 。 

但 是 现在 ， 继 续 使 用 当前 的 方法 还 是 很 有 用 的 。 并 且 考 虑 在 实际 中 我 们 可 以 如 何 应 用 有 限 规 
模 的 数据 集 也 是 很 有 意义 的 。 在 这 种 情况 下 ， 我 们 可 能 期 望 建立 相对 复杂 和 灵活 的 模型 。 经 
常用 来 控制 过 拟 合 现象 的 一 种 技术 是 正则 化 (regularization) 。 这 种 技术 涉及 到 给 误差 函数 
(12) 增加 一 个 惩罚 项 ， 使 得 系数 不 会 达到 很 大 的 值 。 这 种 惩罚 项 最 简单 的 形式 采用 所 有 系数 
的 平方 和 的 形式 。 这 推导 出 了 误差 函数 的 修改 后 的 形式 : 





_ 下 入 
E(w) = 5 >_{y(zn, w) 一 tn} 二 可 | 人 | (1.4) 
n=1 


其 中 |w 上 三 ww?w = 十 十. 十， 系数 控制 了 正则 化 项 相对 于 平方 和 误差 项 的 重要 
性 。 注 意 ， 通 常 系数 wo 从 正则 化 项 中 省 略 ， 因 为 包含 wo 会 使 得 结果 依赖 于 目标 变量 原点 的 选择 
(Hastie et al., 2001) 。wo 也 可 以 被 包含 在 正则 化 项 中 ,但 是 必须 有 自己 的 正则 化 系数 (我 们 将 
在 5.5.1 节 详细 讨论 这 个 问题 ) 。 公 式 (1.4) 中 的 误差 劝 数 也 可 以 用 解析 的 形式 求 出 最 小 值 。 像 
这 样 的 技术 在 统计 学 的 文献 中 被 叫做 收缩 (shrinkage) 方法 ， 因 为 这 种 方法 减 小 了 系数 的 值 。 
二 次 正则 项 的 一 个 特殊 情况 被 称 为 山 糊 回归 (ridge regression) (Hoerl and Kennard, 1970) 。 在 
神经 网 络 的 情形 中 ， 这 种 方法 被 叫做 权 值 衰减 (weight decay) 。 

图 1.7 展 示 了 在 M = 9 的 情况 下 用 与 之 前 相同 的 数据 拟 合 多 项 式 的 结果 。 这 次 使 用 的 是 公式 
(1.4) 的 正则 化 误差 函数 。 我 们 看 到 ， 对 于 ln 入 = -18， 过 拟 合 现象 被 压制 ， 我 们 可 以 得 到 关 
于 本 质 函 数 sin(2rz) 的 一 个 更 好 的 模拟 。 但 是 如 果 我 们 把 选择 的 过 大 ， 我 们 又 得 到 了 一 个 不 好 
的 结果 ， 如 图 1.7 所 示 的 In 和 = 0 的 情形 。 拟 合 的 多 项 式 的 对 应 的 系数 在 表 1.2 中 给 出 ， 表 明正 则 
化 在 减 小 系数 的 值 方面 产生 了 预期 的 效果 。 

正则 化 项 对 于 泛 化 错误 的 影响 可 以 从 图 1.8 看 出 。 图 1.8 给 出 了 训练 集 和 测试 集 的 RMS 误 差 
与 In 和 的 关系 。 我 们 看 到 ， 在 效果 上 ， 和 控制 了 模型 的 复杂 性 ， 因 此 决定 了 过 拟 合 的 程度 。 

模型 复杂 度 是 一 个 重要 的 话题 ， 将 在 1.3 节 详细 讨论 。 这 里 我 们 简单 地 说 一 下 ， 如 果 我 们 试 
着 用 最 小 化 误差 函数 的 方法 解决 一 个 实际 的 应 用 问题 ， 那 么 我 们 不 得 不 寻找 一 种 方式 来 确定 模 
型 复杂 度 的 合适 值 。 上 面 的 结果 给 出 了 一 种 完成 这 一 目标 的 简单 方式 ， 即 通过 把 给 定 的 数据 中 
的 一 部 分 从 测试 集中 分 离 出 ， 来 确定 系数 岂 。 这 个 分 离 出 来 的 验证 集 (validation set) ， 也 被 称 
为 拿 出 集 (hold-out set) ， 用 来 最 优化 模型 的 复杂 度 (MM 或 者 和 ) 。 但 是 在 许多 情况 下 ， 这 太 浪 
费 有 价值 的 训练 数据 了 ， 我 们 不 得 不 寻找 更 高 级 的 方法 。 
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图 1.7: 使 用 正则 化 的 误差 函数 〈1.4) ， 用 M = 9 的 多 项 式 拟 合 图 1.2 中 的 数据 集 。 其 中 正则 化 参数 和 选择 
了 两 个 值 ， 分 别 对 应 于 In 入 = -18 和 ln 入 = 0。 没 有 正则 化 项 的 情形 ， 即 和 = 0， 对 应 于 ln 入 = -co， 在 图 
1.4 的 右 下 角 给 出 。 








lInA=—o00 ln 和 A=—18 ln 和 A=0 
ws 0.35 0.35 0.13 
ww 232.37 474 -0.05 
wi | -5321.83 -0.77 -0.06 
3 48508.31 -31.97 -0.05 
wi -231039.30 -3.89 -0.03 
5 040042.20 55.28 -0.02 
6 | -1001800.52 41.32 -0.01 
7 | 1042400.18 -45.95 -0.00 
WB8 -557082.99 -91.53 0.00 
1w9 125201.43 72.08 0.01 


表 1.2: 不 同 的 正则 化 参数 和 下 ，M = 9 的 多 项 式 的 系数 w* 的 值 。 注 意 ，ln 入 = -co 对 应 于 没有 正则 化 的 模 
型 ， 即 图 1.4 右 下 角 的 模型 。 我 们 看 到 ， 随 着 的 增 大 ， 系 数 的 大 小 逐渐 变 小 。 











Training 
Test 


























—35 —30 Bi —25 —20 


图 1.8: 对 于 M = 9 的 多 项 式 ， 均 方 根 误差 (1.3) 与 In 和 的 关系 。 


15 
wwaibbt.com DUODDOODOD 








图 1.9: 我 们 使 用 一 个 简单 的 例子 来 说 明 概 率 论 的 基本 思想 。 有 两 个 不 同 颜色 的 盒子 ， 每 个 盒子 中 都 有 水 
果 ， 蕴 果 用 绿色 表示 ， 橘 子 用 橙色 表示 。 


目前 我 们 关于 多 项 式 拟 合 的 讨论 大 量 地 依赖 于 直觉 。 我 们 现在 寻找 一 个 更 加 形式 化 的 方法 解 
决 模式 识别 中 的 问题 。 我 们 要 使 用 概率 论 的 方法 。 概 率 论 不 仅 提供 了 本 书后 续 几 乎 所 有 章节 的 
基础 ， 它 也 能 让 我 们 更 深刻 地 理解 本 章 中 我 们 通过 多 项 式 拟 合 的 问题 引出 的 重要 概念 ， 能 让 我 
们 把 这 些 概 念 扩展 到 更 复杂 的 情况 。 


1.2 概率 论 


在 模式 识别 领域 的 一 个 关键 概念 是 不 确定 性 的 概念 。 它 可 以 由 测量 的 误差 引起 ， 也 可 以 由 数 
据 集 的 有 限 大 小 引起 。 概 率 论 提供 了 一 个 合理 的 框架 ， 用 来 对 不 确定 性 进行 量化 和 计算 。 概 率 
论 还 构成 了 模式 识别 的 一 个 中 心 基础 。 当 与 决策 论 (1.5 节 讨论 ) 结合 ， 概 率 论 让 我 们 能 够 根据 
所 有 能 得 到 的 信息 做 出 最 优 的 预测 ， 即 使 信息 可 能 是 不 完全 的 或 者 是 含糊 的 。 

我 们 将 通过 一 个 简单 的 例子 介绍 概率 论 的 基本 概念 。 假 设 我 们 由 两 个 盒子 ， 一 个 红色 的 ， 一 
个 蓝 色 的 ， 红 盒子 中 有 2 个 苹果 和 6 个 橘子 ， 蓝 盒子 中 有 3 个 苹果 和 1 个 橘子 (如 图 1.9 所 示 ) 。 现 
在 假定 我 们 随机 选择 一 个 盒子 ， 从 这 个 盒子 中 我 们 随机 选择 一 个 水 果 ， 观 察 一 下 选择 了 哪 种 水 
果 ， 然 后 放 回 盒子 中 。 假 设 我 们 重复 这 个 过 程 很 多 次 。 假 设 我 们 在 40% 的 时 间 中 选择 红 盒子 ， 
在 60% 的 时 间 中 选择 蓝 盒子 ， 并 且 我 们 选择 盒子 中 的 水 果 时 是 等 可 能 选择 的 。 

在 这 个 例子 中 ， 我 们 要 选择 的 盒子 的 颜色 是 一 个 随机 变量 ， 记 作 B。 这 个 随机 变量 可 以 取 两 
个 值 中 的 一 个 ， 即 7 〈 对 应 红 盒子 ) 或 5 (对 应 蓝 盒子 ) 。 类 似 地 ， 水 果 的 种 类 也 是 一 个 随机 变 
量 ， 记 作 已 。 它 可 以 取 a (苹果 ) 或 者 o (橘子 ) 。 

开始 阶段 ， 我 们 把 一 个 事件 的 概率 定义 为 事件 发 生 的 次 数 与 试验 总 数 的 比值 ， 假 设 总 试验 次 
数 趋 于 无 穷 。 因 此 选择 红 盒 子 的 概率 为 向 ,选择 蓝 盒子 的 概率 为 让 。 我 们 把 这 些 概率 分 布 记 
作 p(B =7) = 布 和 p(B = 25) = 亢 。 注 意 ， 根 据 定义 ， 概 率 一 定位 于 区 间 [0, 1] 内 。 并 且 ， 如 果 事 
件 是 相互 独立 的 ， 并 且 包 含 所 有 可 能 的 输出 (例如 在 这 个 例子 中 ， 盒 子 一 定 要 么 是 红色 ， 要 么 
是 蓝 色 ) ， 那 么 我 们 看 到 那些 事件 的 概率 的 和 一 定 等 于 1。 

我 们 现在 可 以 问 这 样 的 问题 : 选择 到 苹果 的 整体 概率 是 多 少 ? 或者， 假设 我 们 选择 了 橘子 ， 
我 们 选择 的 盒子 是 蓝 盒子 的 概率 是 多 少 ” 我 们 可 以 回答 这 种 问题 ， 事 实 上 也 可 以 回答 与 模式 识 
别 相关 的 比 这 些 复 杂 得 多 的 问题 。 前 提 是 我 们 掌握 了 概率 论 的 两 个 基本 规则 : 加 和 规则 (sum 
rule) 、 乘 积 规则 (product rule) 。 获 得 了 这 些 规则 之 后 ， 我 们 将 重新 回 到 我 们 的 水 果 盒 子 的 例 
子 中 。 

为 了 推导 概率 的 规则 ， 考 虑 图 1.10 所 示 的 稍微 一 般 一 些 的 情形 。 这 个 例子 涉及 到 两 个 随 
机 变量 X 和 Y (例如 可 以 是 上 面 例子 中 “盒子 "和 "水果" 的 随机 变量 ) 。 我 们 假设 X 可 以 取 任 意 
的 zi;， 其 中 i = 1,...,M， 并 且 Y 可 以 取 任 意 的 y;， 其 中 i = 1,...,LK。 考 虑 N 次 试验 ， 其 中 我 们 
对 X 和 YY 都 进行 取样 ， 把 人 X= zi 上 且 Y = yj; 的 试验 的 数量 记 作 ni;}。 并 且 ， 把 XX 取 值 x; (与 Y 的 取 
值 无 关 ) 的 试验 的 数量 记 作 c;， 类 似 地 ， 把 Y 取 值 yj; 的 试验 的 数量 记 作 7;。 

多 取 值 x; 且 Y 取 值 y; 的 概率 被 记 作 p(X = zi,Y = yj)， 被 称 为 X = zi 和 Y = yj 的 联合 概率 
(joint probability) 。 它 的 计算 方法 为 落 在 单元 格 i, 7 的 点 的 数量 与 点 的 总 数 的 比值 ， 即 : 














ee 
p(X=zaY = 如 == 半 (0 
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图 1.10: 我 们 可 以 这 样 推导 概率 的 加 和 规则 和 乘积 规则 : 考虑 两 个 随机 变量 ，X， 取 值 为 {zi}， 其 

中 i 二 1,.…., MM， 和 Y， 取 值 为 {y;}， 其 中 i = 1,.…., 工 。 在 这 个 例子 中 ， 我 们 取 M = 5 和 艺 = 3。 如 果 我 

们 考虑 这 些 变 量 的 总 计 和 N 个 实例 ， 那 么 我 们 将 XX = zi 且 Y = yj; 的 实例 的 数量 记 作 ni;， 它 是 对 应 的 单元 格 

ei 列 i 中 的 点 的 数量 ， 对 应 于 X = z;， 被 记 作 c;， 行 中 的 点 的 数量 ， 对 应 于 Y = y;， 被 记 
Tjo 


这 里 我 们 隐 式 地 考 上 处 极限 N 一 co。 类似 地 ,，X 取 值 w (与 Y 取 值 无 关 ) 的 概率 被 记 
作 p(X = zxi)， 计 算 方法 为 落 在 列 i 上 的 点 的 数量 与 点 的 总 数 的 比值 ， 即 : 
6 

N 

由 于 图 1.10 中 列 i 上 的 实例 总 数 就 是 这 列 的 所 有 单元 格 中 实例 的 数量 之 和 ， 我 们 有 ci = 22; nij， 
因此 根据 公式 (1.5) 和 公式 (1.6) ,我 们 有 : 


p(X = 2i) = (1.0) 


L 


MX = == (1.7) 
j=1 


这 是 概率 的 加 和 规则 (sum rule) 。 注 意 , p(X = zi) 有 了 时 被 称 为 边缘 概率 (marginal 
probability) ， 因 为 它 通 过 把 其 他 变量 (本 例 中 的 Y) 边缘 化 或 者 加 和 得 到 。 

如 果 我 们 只 考虑 那些 X = zi 的 实例 ， 那 么 这 些 实 例 中 Y= yj 的 实例 所 占 的 比例 被 写 
成 p(Y = yj | XX = zi)， 被 称 为 给 定 X = zi 的 Y = yj; 的 条 件 概率 (conditional probability) 。 它 的 
计算 方式 为 : 计算 落 在 单元 格 i,j 的 点 的 数量 列 的 点 的 数量 的 比值 ， 即 : 

p(Y = | X= 7;)= 之 (1.9) 


从 公式 (1.5) 、 公 式 (1.6) 和 “1.8) ， 我 们 可 以 推导 出 下 面 的 关系 : 
Ti Ti . Ci 
N co N 








p(X= zi,Y = Y) =p(Y =y;|X= 72)p(X = zi) (1.9) 
这 被 称 为 概率 的 乘积 规则 (product rule) 。 

到 现在 为 止 ， 我 们 相当 仔细 地 区 分 随机 变量 (例如 水 果 例 子 中 的 盒子 B) 和 随机 变量 可 以 取 
的 值 (例如 盒子 是 红色 时 取 值 为 -) 。 因 此 B 取 值 为 -的 概率 被 记 作 p(B = 7)。 虽 然 这 种 记 法 避 
兔 了 歧义 性 ， 这 种 记号 相当 笨 抽 ， 并 且 在 很 多 情况 下 没有 必要 。 相 反 ， 我 们 简单 地 用 p(B) 表 示 
随机 变量 B 的 分 布 ，p(7) 表 示 这 个 分 布 对 于 特定 的 值 * 的 估计 ， 假定 这 种 表达 方式 在 给 定 上 下 文 
的 情况 下 不 会 造成 歧义 。 

使 用 这 种 简洁 的 记 法 ， 我 们 可 以 用 下 面 的 形式 表示 概率 论 的 两 条 基本 规则 : 


sum rule p(X)= >_p(X,Y) (1.10) 
Y 


product rule p(X,Y)=p(Y | X)p(X) (1.11) 
这 里 p(X,Y 了 ) 是 联合 概率 ， 可 以 表述 为 -X 且 Y 的 概率 "。 类 似 地 ，p(Y | X) 是 条 件 概率 ， 可 以 表 
述 为 “给 定 X 的 条 件 下 Y 的 概率 "，p(X) 是 边缘 概率 ， 可 以 简单 地 表述 为 “XX 的 概率 "。 这 两 个 简单 
的 规则 组 成 了 我 们 在 全 书 中 使 用 的 全 部 概率 推导 的 基础 。 
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XX 
p(X) p(X|Y = 1) 
xX xX 


图 1.11: 两 个 变量 X 和 Y 上 的 概率 分 布 的 一 个 例子 。 关 可 以 取 9 个 可 能 的 值 ， 而 Y 可 以 去 2 个 可 能 的 值 。 
左上 图 给 出 了 从 这 两 个 变量 的 联合 概率 分 布 中 抽取 的 60 个 样本 点 。 剩 下 的 图 给 出 了 估计 边缘 概率 分 
布 p( 关 ) 和 p(Y) 的 直方 图 ， 以 及 条 件 概 率 分 布 p(X |Y = 1) 的 直方 图 ， 这 个 条 件 概 率 分 布 对 应 于 左上 图 的 
下 面 一 行 。 








根据 乘积 规则 ， 以 及 对 称 性 p(X,Y) = p(Y, 关 )， 我 们 立即 得 到 了 下 面 的 两 个 条 件 概 率 之 间 的 
关系 : 
p(X |Y)p(Y) 
p(X) 
这 被 称 为 贝 叶 斯 定理 (Bayes' theorem) ， 在 模式 识别 和 机 器 学 习 领 域 扮 演 者 中 心 角色 。 使 用 加 
和 规则 ， 贝 叶 斯 定理 中 的 分 母 可 以 用 出 现在 分 子 中 的 项 表示 : 


p(X) = 5 p(X|Y)p(Y) (19) 
Y 


p(Y | X) = (1.12) 


我 们 可 以 把 贝 叶 斯 定理 的 分 母 看 做 归 一 化 常数 ， 用 来 确保 公式 (1.12) 左 侧 的 条 件 概率 对 于 所 有 
的 Y 的 取 值 之 和 为 1。 

在 图 1.11 中 ， 我 们 给 出 了 一 个 简单 的 涉及 到 两 个 变量 的 联合 分 布 的 例子 ， 来 说 明 边 缘分 布 和 
条 件 分 布 的 概念 。 这 里 我 们 从 联合 分 布 中 抽取 了 有 限 数量 N = 60 的 样本 ， 展 示 在 了 左上 角 。 在 
右上 和 角 是 数据 点 取 两 种 Y 值 的 比例 的 直方 图 。 根 据 概率 的 定义 ， 这些 比例 在 NN 一 co 时 将 会 等 于 
对 应 的 概率 p(Y)。 我 们 可 以 把 直方 图 看 成 在 给 定 有 限 数 量 的 数据 点 的 情形 下 ， 对 概率 分 布 建 模 
的 一 种 简单 的 方式 。 使 用 数据 对 概率 分 布 建 模 是 统计 模式 识别 的 核心 ， 在 本 书 中 将 会 详细 介 
绍 。 图 1.11 中 剩 下 的 两 张 图 分 别 给 出 了 估计 p(X) 和 p(X |Y = 1) 的 直方 图 。 

现在 让 我 们 回 到 水 果 盒子 的 例子 。 现 在 我 们 将 再 一 次 清楚 地 区 分 随机 变量 和 它 的 实例 。 我 们 
看 到 选择 红 盒子 或 者 蓝 盒子 的 概率 分 别 由 下 式 给 出 : 


p(B=7)= ~ (1.14) 


18 
wwaibbt.com DUODDOODOD 


p( 有 = 忠于 (1.15) 

注意 ， 这 两 个 式 子 满足 p(B Po = 四 = 
现在 假设 我 们 随机 选择 一 个 结果 作 现 是 于. 然后 我 们 选择 苹果 的 概率 就 是 蓝 盒 子 
中 苹果 的 比例 (等 于 4) ， 加 此 人 =olB= 昌 =3。 实际 上 ， 我 们 可 以 写 出 给 定 盒 子 种 类 的 





条 件 下 水 果 种 类 的 全 部 四 个 概率 : 





p(F=a B=")=7 (1.10) 
3 
p(F =0o B=7)=3 (1.17) 
p(F=a B= (1.18) 
p(F =0o B= (1.19) 
还 要 注意 ， 这 些 概率 是 归 一 化 的 ， 所 以 
p(F=a|B=7)+p(F=0|B=7)=1 (1.20) 
类 似 地 
p(F=a|B=0)+p(F=o0|B=0)=1 (1.21) 


我 们 现在 使 用 加 和 规则 和 乘积 规则 来 计算 选择 一 个 苹果 的 整体 概率 : 


p(F=a)=p(F=a|B=7)p(B=7)+p(F =a|B=0p(B=0) 
LN he a | (1.22) 
4° 10 4° 10 20 
使 用 加 和 规则 ， 可 以 计算 出 p(=0)=1 一 苏 = 癌 。 
反 过 来 ， 假 设 我 们 知道 被 选择 的 水 果 是 橘子 ， 我 们 想 知道 它 来 自 于 哪个 盒子 。 这 需要 我 们 在 
给 定 水 果 种 类 的 条 件 下 估计 盒子 的 概率 分 布 ， 然 而 公式 (1.16) 至 公式 (1.19) 给 出 的 是 在 已 知 
盒子 颜色 的 情形 下 水 果 的 概率 分 布 。 我 们 可 以 使 用 贝 叶 斯 定理 来 解决 这 种 逆转 的 条 件 概 率 问 


日 


题 : 











A Ye 和 Te (1.23) 

根据 加 和 规则 ， 我 们 可 以 计算 出 p(B 一 5| =0)==1-2=3。 

我 们 可 以 按照 下 面 的 方式 表述 贝 时 斯 定理 。 如 果 在 我 们 知道 水 果 的 种 类 之 前 ， 有 人 问 我 们 哪 

盒子 被 选中 ， 那 么 我 们 能 够 得 到 的 最 多 的 信息 就 是 概率 p(B)。 我 们 把 这 个 叫做 先 验 概率 
ee E 够 得 到 的 概率 。 一 旦 我 们 知道 水 
果 是 橘子 ， 我 们 就 能 够 使 用 贝 叶 斯 定理 来 计算 概率 p(B | )。 这 个 被 称 为 后 验 概率 (posterior 
probability) ， 因 为 它 是 我 们 观察 到 玉 之 后 的 概率 。 注 意 ， 在 这 个 例子 中 ， 选 择 红 盒子 的 先 验 概 
率 是 梧 ， 所 以 与 红 盒 子 相 比 ， 我 们 更 有 可 能 选择 蓝 盒子 。 然 而 ， 一 旦 我 们 观察 到 选择 的 水 果 是 
橘子 ， 我 们 发 现 红 盒子 的 后 验 概率 现在 是 2 ， 因 此 现在 实际 上 更 可 能 选择 的 是 红 盒子 。 这 个 结果 
与 我 们 的 直觉 相符 ， 因为 红 盒子 中 橘子 的 比例 比 蓝 售 高 得 多 ， 因 此 观察 到 水 果 是 橘子 这 件 事 
提供 给 我 们 更 强 的 证 据 来 选择 红 例子 。 事 实 上 ， 这 个 证 据 相 当 强 ， 已 经 超过 了 先 验 的 假设 ， 使 
得 红 盒子 被 选择 的 可 能 性 大 于 蓝 

最 后 ， 如 果 两 个 变量 的 联合 分 布 可 以 分 解 成 两 个 边缘 分 布 的 乘积 ， 即 p(X,Y) =p(X)p(Y)， 
那么 我 们 说 X 和 Y 相 互 独立 (independent) 。 根 据 乘积 规则 ， 我 们 可 以 得 到 p(Y | X) = p(Y)， 
因此 对 于 给 定 X 的 条 件 下 的 Y 的 条 件 分 布 实际 上 独立 于 X 的 值 。 例 如 ， 在 我 们 的 水 果 盒 子 的 例子 
中 ， 如 果 每 个 盒子 包含 同样 比例 的 苹果 和 橘子 ， 那 么 p( 忆 | B) = P(F)， 从 而 选择 苹果 的 概率 就 
与 选择 了 哪个 盒子 无 关 。 
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图 1.12: 离散 变量 的 概率 的 概念 可 以 扩展 到 联 塑 变量 上 的 概率 分 布 p(z)。z 位 于 区 间 (z,z 十 6z) 的 概率 





为 pz)567， 其 中 6z 一 0。 概 率 密度 可 以 表示 为 累计 密度 函数 P(z) 的 导数 。 


1.2.1 概率 密度 


既然 考虑 了 定义 在 离散 事件 集合 上 的 概率 ,我 们 也 希望 考虑 与 连续 变量 相关 的 概 
率 。 我 们 会 把 我 们 的 讨论 限制 在 一 个 相对 非 正 式 的 形式 上 。 如 果 一 个 实 值 变 量 z 的 概率 
落 在 区 间 (z,z + 6z) 的 概率 由 p(z)5z 给 出 (6z 0) ， 那 么 p(z) 叫 做 z 的 概率 密度 (probability 
density) 。 图 1.12 说 明了 这 个 概念 。z 位 于 区 间 (a, 5) 的 概率 由 下 式 给 出 : 


b 
De es / a (1.24) 


由 于 概率 是 非 负 的 ， 并 且 z 的 值 一 定位 于 实数 轴 上 得 某 个 位 置 ， 因 此 概率 密度 一 定 满足 下 面 两 个 
条 件 : 
D(Z) 二 0 (1.25) 


广 p(x) dr =1 (1.20) 


在 变量 以 非 线性 的 形式 变化 的 情况 下 ， 概 率 密 度 函 数 通过 Jacobian 因 子 变 换 为 与 简单 的 
函数 不 同 的 形式 。 例 如 ， 假 设 我 们 考虑 一 个 变量 的 变化 z = g(y)， 那 么 函数 f(x) 就 变 成 
了 f(y) = f(g(y))。 现 在 让 我 们 考虑 一 个 概率 密度 函数 p(x)， 它 对 应 于 一 个 关于 新 变量 y 的 密度 
函数 py(y) ， 其 中 下 标的 不 同 表 明了 pz(z) 和 zy(g) 是 不 同 的 密度 函数 这 一 事实 。 对 于 很 小 的 6z 的 
值 ， 落 在 区 间 (z,z 十 6z) 内 的 观测 会 被 变换 到 区 间 (%,y + 9) 中 。 其 中 pz(z)6z 之 py(y)5y， 因 此 








d 
mW) =pr(0) | | = pelo ly 0) (2 
这 个 性 质 的 一 个 结果 就 是 ， 概 率 密度 最 大 值 的 概念 取决 于 变量 的 选择 。 
位 于 区 间 ( 一 00; z) 的 x 的 概率 由 累积 分 布 函数 (cumulative distribution function) 给 出 。 定 义 
为 : 


P(z) = D(Z) dz (1.28) 


这 满足 已 (z) = p(x)， 如 图 1.12 所 示 。 

如 果 我 们 有 几 个 连续 变量 x1,...,zp， 整 体 记 作 向 量 x， 那 么 我 们 可 以 定义 联合 概率 密 
度 p(z) = p(z1,.….,XD)， 和 使 得 zx 落 在 包含 点 x 的 无 穷 小 体积 x 的 概率 由 p(x)5z 给 出 。 多 变量 概率 
密度 必须 满足 


p(x)>0 (1.29) 
f pl) dz 一 1 (1.30) 
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其 中 ， 积 分 必须 在 整个 z 空 间 上 进行 。 我 们 也 可 以 考虑 离散 变量 和 连续 变量 相 结合 的 联合 概率 
分 布 。 

注意 ， 如 果 z 是 一 个 离散 变量 ， 那 么 p(z) 有 了 时 被 叫做 概率 质量 函数 (probability mass 
function) ， 因 为 它 可 以 被 看 做 集中 在 合法 的 z 值 处 的 “概率 质量 的 集合 。 

概率 的 加 和 规则 和 乘积 规则 以 及 贝 叶 斯 规则 ， 同 样 可 以 应 用 于 概率 密度 函数 的 情形 ， 也 可 以 
应 用 于 离散 变量 与 连续 变量 相 结合 的 情形 。 例 如 ， 如 果 z 和 ?是 两 个 实数 变量 ， 那 么 加 和 规则 和 
乘积 规则 的 形式 为 

DZ) = je y) dy (1.31) 


p(x,Yy) = p(y | x)p(z) (1.32) 


形式 化 地 证 明 连 续 变量 的 加 和 规则 和 乘积 规则 (Feller, 1966) 需要 一 个 被 称 为 测度 论 (measure 
theory) 的 数学 分 支 ， 不 在 本 书 的 讨论 范围 内 。 然 而 ， 它 的 正确 性 可 以 非 形式 化 地 观察 出 来 。 把 
每 个 实数 变量 除 以 区 间 的 宽度 A， 然 后 考虑 这 些 区 间 上 的 概率 分 布 。 取 极限 A 一 0， 把 求 和 转 
化 为 积分 ， 就 得 到 了 预期 的 结果 。 








1.2.2 ”期望 和 协 方差 


涉及 到 概率 的 一 个 重要 的 操作 是 寻找 函数 的 加 权 平 均值 。 在 概率 分 布 p(z) 下 ， 函 数 (7z) 的 平 
均值 被 称 为 (2) 的 期 望 (expectation) ， 记 作 正 |[ 力 。 对 于 一 个 离散 变量 ， 它 的 定义 为 


[= >》,p(z)j(z) (1.33) 


























因此 平均 值 根据 z 的 不 同 值 的 相对 概率 加 权 。 在 连续 变量 的 情形 下 ， 期 望 以 对 应 的 概率 密度 的 积 
分 的 形式 表示 


























= | p(w) dz (1.34) 
两 种 情形 下 ， 如 果 我 们 给 定 有 限 数量 的 N 个 点 ， 这 些 点 满足 某 个 概率 分 布 或 者 概率 密度 函数 ， 
那么 期 望 可 以 通过 求 和 的 方式 估计 
1 N 
力克 > fn) (1.35) 
ne 


在 第 11 章 讨论 取样 方法 时 ， 我 们 将 会 经 常用 到 这 个 结果 。 当 入 一 co 时 ， 公 式 (1.35) 的 估计 就 
会 变 得 精确 。 
有 时 ， 我 们 会 考虑 多 变量 函数 的 期 望 。 这 种 情形 下 ， 我 们 可 以 使 用 下 标 来 表明 被 平均 的 是 哪 


个 变量 ， 例 如 














Ea f(x,y)] (1.30) 


表示 函数 f(x,y) 关 于 z 的 分 布 的 平均 。 注 意 ，Ex [f(x,y)] 是 y 的 一 个 函数 。 
我 们 也 可 以 考虑 关于 一 个 条 件 分 布 的 条 件 期 望 (conditional expectation) ， 即 


Eslf | y= > p(z |y) f(z) (1.37) 


























连续 变量 情形 下 的 定义 与 此 类 似 。 
f(z) 的 方差 (variance) 被 定义 为 


var[f] = E[(f(z) — ELf(z)])" (1.38 


它 度量 了 f(zx) 在 均值 E[f(zx)] 附 近 变 化 性 的 大 小 。 把 平方 项 展开 ， 我们 看 到 方差 也 可 以 写 
成 f(z) 和 f(x) 的 期 望 的 形式 






























































var[f] = ELf(2)"] — ELf (2) (1.39) 
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特别 地 ， 我 们 可 以 考虑 变量 z 自 身 的 方差 ， 它 由 下 式 给 出 : 


























vat[z] 一 正 [z3] 一 正 [z]? (1.40) 


对 于 两 个 随机 变量 z 和 VY， 协 方差 (covariance) 被 定义 为 




































































cov[z,y| = Ey,y[{z — Elz]}{y — Ely]} = Ezylzy] — Elz]ElY) (1.41) 


它 表 示 在 多 大 程度 上 xz 和 y 会 共同 变化 。 如 果 z 和 y 相 互 独立 ， 那 么 它们 的 协 方差 为 0。 
在 两 个 随机 向 量 z 和 2 的 情形 下 ， 协 方差 是 一 个 矩阵 


cov[lz,Yy] = Ergyl{2 — Elzl}{y" ~ Ely ]}] = Ezwyley’ | — Elz]Ely"] (1.42) 


如 果 我 们 考虑 向 量 x 各 个 分 量 之 间 的 协 方差 ， 那么 我 们 可 以 将 记号 稍微 简化 一 


下 : cov[z] 三 cov[z,z] 




































































1.2.3 贝 叶 斯 概率 


本 章 目 前 为 止 ， 我 们 根据 随机 重复 事件 的 频率 来 考察 概率 。 我 们 把 这 个 叫做 经 典 的 
(classical) 或 者 频率 学 家 (frequentisb) 的 关于 概率 的 观点 。 现 在 我 们 转向 更 加 通用 的 贝 叶 其 
(Bayesian) 观点 。 这 种 观点 中 ， 频 率 提供 了 不 确定 性 的 一 个 定量 化 描述 。 

考虑 一 个 不 确定 性 事件 ， 例 如 月 球 是 否 曾经 处 于 围绕 太阳 的 自己 的 轨道 上 ， 或 者 本 世纪 来 北 
极 冰 盖 是 否 会 消失 。 这 些 事件 无 法 重复 多 次 ， 因 此 我 们 无 法 像 之 前 水 果 盒子 那样 定义 概率 。 但 
是 ， 我 们 通常 会 有 一 些 想法 ， 例 如 ， 北 极 冰 盖 融化 的 速度 等 等 。 如 果 我 们 我 们 获得 到 了 新 鲜 的 
证 据 ， 例 如 人 造 卫 星 收 集 到 了 一 些 新 的 修正 信息 ， 我 们 可 能 就 会 修正 我 们 对 于 冰 盖 融化 速度 的 
观点 。 我 们 估计 冰 盖 融化 速度 会 影响 我 们 采取 的 措施 ， 例 如 我 们 会 努力 减少 温室 气体 的 排放 。 
在 这 样 的 情况 下， 我们 可 能 希望 能 够 定量 地 描述 不 确定 性 ， 并 且 根 据 少量 新 的 证 据 对 不 确定 性 
进行 精确 的 修改 ， 对 接 下 来 将 要 采取 的 动作 进行 修改 ， 或 者 对 最 终 的 决策 进行 修改 。 这 可 以 通 
过 一 种 优雅 的 通用 的 贝 叶 斯 概率 观点 来 实现 。 

然而 ， 在 作出 合理 的 推断 时 ， 如 果 我 们 想 要 尊重 常识 ， 那 么 使 用 概率 论 来 表达 不 确定 性 不 是 
可 选 的 ， 而 是 不 可 避免 的 。 例 如 ，Cox (1946) 证 明 ， 如 果 用 数值 来 表示 置信 的 程度 ， 那 么 编码 
了 这 种 置信 度 中 符合 常识 的 一 组 简单 的 公理 能 够 唯一 地 推导 出 一 组 规则 来 操控 置信 的 程度 ， 这 
组 规则 等 价 于 概率 的 加 和 规则 和 乘积 规则 。 这 首次 含糊 地 证 明了 概率 论 能 够 被 当做 布尔 逻辑 在 
涉及 到 不 确定 性 的 问题 时 的 扩展 (Jaynes, 2003) 。 许 多 其 他 学 者 也 发 表 了 不 同 的 性 质 集合 或 者 
公理 集合 ， 这 些 性 质 或 公理 是 不 确定 性 的 度量 应 该 满足 的 Ramsey, 1931; Good, 1950; Savage， 
1961; deFinetti, 1970; Lindley, 1982) 。 在 这 些 情形 下 ， 结 果 的 数值 量 的 行为 精确 地 符合 概率 的 
规则 。 因 此 把 这 些 量 看 成 ( 贝 叶 斯 观点 的 ) 概率 就 很 自然 了 。 

在 模式 识别 领域 ， 对 概率 有 一 个 更 加 通用 的 观点 同样 是 很 有 帮助 的 。 考 虑 1.1 节 讨论 过 的 多 
项 式 曲线 拟 合 的 例子 。 对 于 观察 到 的 变量 各 这 一 随机 值 的 概率 ， 应 用 频率 学 家 的 观点 似乎 是 很 
合理 的 。 然 而 ， 我 们 想 针对 模型 参数 w 的 合适 选择 进行 强调 和 定量 化 。 我 们 将 会 看 到 ， 从 贝 叶 
所 的 观点 来 看 我们 能 名 使 用 概率 论 来 描述 村 型 参数 例如 ww) 的 不 确定 性 ， 或 者 模型 本 身 的 
选择 。 

贝 叶 斯 定理 现在 有 了 一 个 新 的 意义 。 回 忆 一 下 ， 在 水 果 盒子 的 例子 中 ,水果 种 类 的 观察 提供 
了 相关 的 信息 ， 改 变 了 选择 了 红 盒 子 的 概率 。 在 那个 例子 中 ， 贝 时 斯 定理 通过 将 观察 到 的 数据 
融合 来 把 先 验 概率 转化 为 后 验 概率 。 正 如 我 们 将 看 到 的 ， 在 我 们 对 数量 (例如 多 项 式 曲线 拟 
合 例子 中 的 参数 ww) 进行 推断 时 ， 我 们 可 以 采用 一 个 类 似 的 方法 。 在 观察 到 数据 之 前 ， 我 们 有 
一 些 关 于 参数 w 的 假设 ， 这 以 先 验 概率 p(w) 的 形式 给 出 。 观 测 数据 D = {H,…,tN]} 的 效果 可 以 
通过 条 件 概率 p(D | w) 表 达 ， 我 们 将 在 1.2.5 节 看 到 这 个 如 何 被 显 式 地 表达 出 来 。 贝 叶 斯 定理 的 形 


式 为 
p(D | w)p(w) 
p(D) 
它 让 我 们 能 够 通过 后 验 概率 p(w | D)， 在 观测 到 D 之 后 估计 w 的 不 确定 性 。 





p(w | D) = (1.43) 


22 
wwaibbt.com DODDODODOD 


贝 叶 斯 定理 右 侧 的 量 p(D | w) 由 观测 数据 集 D 来 估计 ， 可 以 被 看 成 参数 向 量 w 的 函数 ， 被 称 
为 似 然 函 数 (likelihood function) 。 它 表达 了 在 不 同 的 参数 向 量 w 下 ， 观 测 数据 出 现 的 可 能 性 的 
大 小 。 注 意 ， 似 然 函 数 不 是 妈 的 概率 分 布 ， 并 且 它 关于 内 的 积分 并 不 〈 一 定 ) 等 于 1。 

给 定 似 然 函数 的 定义 ， 我们 可 以 用 自然 语言 表述 贝 叶 斯 定理 


posterior cx likelihood x prior (1.44) 


其 中 所 有 的 量 都 可 以 看 成 w 的 函数 。 公 式 (1.43) 的 分 母 是 一 个 归 一 化 和 常数， 确保 了 左 侧 的 后 验 
概率 分 布 是 一 个 合理 的 概率 密度 ， 积 分 为 1。 实 际 上 ， 对 公式 (1.43) 的 两 侧 关 于 w 进 行 积分 ， 
我 们 可 以 用 后 验 概 率 分 布 和 似 然 函 数 来 表达 贝 叶 斯 定理 的 分 母 


p(D) = p(D | w)p(1w) du 145) 


在 贝 叶 斯 观点 和 频率 学 家 观点 中 ， 似 然 函数 p(D | w) 都 起 着 重要 的 作用 。 然 而 ， 在 两 种 观点 
中 ， 使 用 的 方式 有 着 本 质 的 不 同 。 在 频率 学 家 的 观点 中 ， 了 被 认为 是 一 个 固定 的 参数 ， 它 的 值 
由 某 种 形式 的 “估计 "来 确定 ， 这 个 估计 的 误差 通过 考察 可 能 的 数据 集 D 的 概率 分 布 来 得 到 。 相 
反 ， 从 贝 叶 斯 的 观点 来 看 ， 只 有 一 个 数据 集 D ( 即 实际 观测 到 的 数据 集 ) ， 参 数 的 不 确定 性 通 
过 ww 的 概率 分 布 来 表达 。 

频率 学 家 广泛 使 用 的 一 个 估计 是 最 大 似 然 (maximum likelihood) 估计 ， 其 中 ww 的 值 是 使 似 
然 函 数 p(D | ww) 达 到 最 大 值 的 w 值 。 这 对 应 于 选择 使 观察 到 的 数据 集 出 现 概 率 最 大 的 包 的 值 。 在 
机 器 学 习 的 文献 中 ， 似 然 函 数 的 负 对 数 被 叫做 误差 函数 (error function) 。 由 于 负 对 数 是 单调 递 
减 的 函数 ， 最 大 化 似 然 函数 等 价 于 最 小 化 误差 函数 。 

一 种 决定 频率 学 家 的 误差 的 方法 是 自助 法 (bootstrap) (Efron, 1979; Hastie et al., 2001) 。 
这 种 方法 中 ， 多 个 数据 集 使 用 下 面 的 方式 创造 。 假 设 我 们 的 原始 数据 集 由 和 N 个 数据 
点 六 = {21,.….,ZN} 组 成 。 我 们 可 以 通过 随机 从 关中 抽取 NN 个 点 的 方式 ,创造 一 个 新 的 数据 
集 XB。 抽 取 时 可 以 有 重复 ， 因 此 某 些 和 中 的 数据 点 可 能 在 和 Xp 中 有 重复 ， 而 其 他 的 在 怀 中 的 点 
会 在 X5 中 缺失 。 这 个 过 程 可 以 重复 工 词 ， 生 成 7 个 数据 集 ， 每 个 数据 集 的 大 小 都 是 Y， 每 个 数 
据 集 是 通过 对 袁术 数据 集 筷 采样 得 到 的 。 参 数 佑 计 的 统计 准确 性 之 后 就 可 以 通过 考察 不 同 的 自 
助 数据 集 之 间 的 预测 的 变化 性 来 进行 评估 。 

贝 叶 斯 观点 的 一 个 优点 是 对 先 验 概率 的 包含 是 很 自然 的 事情 。 例 如 ， 假 定投 掷 一 枚 普通 的 硬 
币 3 次 ， 每 次 都 是 正面 朝 上 。 一 个 经 典 的 最 大 似 然 模型 在 估计 硬币 正面 朝 上 的 概率 时 ， 结 果 会 是 
1， 表 示 所 有 未 来 的 投掷 都 会 是 正面 彰 上 ! 相反 ,一 个 带 有 任意 的 合理 的 先 验 的 贝 叶 斯 的 方法 将 
不 会 得 出 这 么 极端 的 结论 。 

关于 频率 学 家 的 观点 和 贝 叶 斯 的 观点 的 相对 优势 有 很 多 争论 。 事 实 上 并 没有 纯粹 的 频率 学 家 
观点 或 者 贝 叶 斯 的 观点 。 例 如 ， 针 对 贝 叶 斯 方法 的 一 种 广泛 的 批评 就 是 先 验 概率 的 选择 通常 是 
为 了 计算 的 方便 而 不 是 为 了 反映 出 任何 先 验 的 知识 。 某 些 人 甚至 把 贝 叶 斯 观点 中 结论 对 于 先 验 
选择 的 依赖 性 的 本 质 看 成 困难 的 来 源 。 减 少 对 于 先 验 的 依赖 性 是 所 谓 无 信息 (noninformative) 
先 验 的 一 个 研究 动机 。 然 而 ， 这 会 导致 比较 不 同 模 型 时 的 困难 ， 并 且 实 际 上 当先 验 选 择 不 好 的 
时 候 ， 贝 叶 斯 方法 有 很 大 的 可 能 性 会 给 出 错误 的 结果 。 频 率 学 家 估计 方法 在 一 定 程度 上 避免 了 
这 一 问题 ， 并 且 例 如 交叉 验证 的 技术 在 模型 比较 等 方面 也 很 有 用 。 

本 书 着 重 强 调 贝 叶 斯 观点 ， 这 反映 出 过 去 几 年 贝 叶 斯 方法 在 实际 应 用 中 重要 性 的 逐渐 增长 。 
本 书 也 会 在 必要 的 时 候 讨论 有 用 的 频率 学 家 观点 下 的 概念 。 

虽然 贝 叶 斯 的 框架 起 源 于 18 世 纪 ， 但 是 贝 叶 斯 方法 的 实际 应 用 在 很 长 时 间 内 都 被 执行 完整 的 
贝 叶 斯 步骤 的 困难 性 所 限制 ， 尤 其 是 需要 在 整个 参数 空间 求 和 或 者 求 积分 ， 这 在 做 预测 或 者 比 
较 不 同 的 模型 时 必须 进行 。 取 样 方法 的 发 展 ， 例 如 马尔 科 夫 链 蒙 特 卡 罗 (在 第 11 章 讨论 ) ， 以 
及 计算 机 速度 和 存储 容量 的 巨大 提升 ,打开 了 在 相当 多 的 问题 中 使 用 贝 叶 斯 技术 的 大 门 。 蒙 特 
ty 
纲 模 问题 。 

最 近 ， 许 多 高 效 的 判别 式 方法 被 提出 来 ， 例 如 变种 贝 叶 斯 (variational Bayes) 和 期 望 传播 
(expectation propagation) 。 这 些 提 供 了 一 种 可 选 的 补充 的 取样 方法 ， 让 贝 叶 斯 方法 能 够 应 用 
于 大 规模 的 应 用 中 (Blei et al., 2003) 。 
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内 
图 1.13: 一 元 高 斯 分 布 的 图 像 ， 给 出 了 均值 和 标准 差 c。 


1.2.4 ”高 斯 分 布 

我 们 将 用 整个 第 二 章 来 研究 各 种 各 样 的 概率 分 布 以 及 它们 的 性 质 。 人 然而， 在 这 里 介绍 连续 变 
量 一 种 最 重要 的 概率 分 布 是 很 方便 的 。 这 种 分 布 就 是 正 态 分 布 (normal distribution) 或 者 高 斯 
分 布 (Gaussian distribution) 。 在 其 余 章节 中 (事实 上 在 整 本 书 中 ) ， 我 们 将 会 经 常用 到 这 种 分 





布 。 

对 于 一 元 实 值 变 量 x， 高 斯 分 布 被 定义 为 

1 { 1 
(2702)3 20? 
它 由 两 个 参数 控制 : 上 4， 被 叫做 均值 (mean) ， 以 及 o2， 被 叫做 方差 (variance) 。 方 差 的 平方 
根 ， 由 o 给 定 ， 被 叫做 标准 差 (standard deviation) 。 方 差 的 倒数 ， 记 作 8 = 点 ， 被 叫做 精度 
(precision) 。 我 们 稍 后 将 看 到 这 些 项 的 意义 。 图 1.13 给 出 了 高 斯 分 布 的 图 像 。 

根据 公式 (1.46) ， 我 们 看 到 高 斯 分 布 满足 


N(z | 1,0°) = 





(x 由】 (1.40) 





NM 由 o2 >0 (1.47) 
并 且 很 容易 证 明 高 斯 分 布 是 归 一 化 的 ， 因 此 
广 N(z |1,0°)dr=1 (1.48) 


因此 公式 (1.46) 满足 合理 的 概率 密度 函数 的 两 个 要 求 。 
我 们 已 经 能 够 找到 关于 z 的 函数 在 高 斯 分 布下 的 期 望 。 特 别 地 ，z 的 平均 值 为 














EX] = | NM 由 a2zdz 一 内 (1.49) 





由 于 参数 1 表示 在 分 布下 的 x 的 平均 值 ， 它 通常 被 叫做 均值 。 类 似 地 ， 二 阶 矩 为 














E[z2] = a N(x |,0)r dr = +o? (1.50) 
根据 公式 (1.49) 和 公式 (1.50) ，Zz 的 方差 被 定义 为 
vatr[z] = Elz?] — Elz]? = o? (1.51) 


因此 o? 也 被 叫做 方差 参数 。 分 布 的 最 大 值 被 叫做 众 数 。 对 于 高 斯 分 布 ， 众 数 与 均值 恰好 相等 。 
我 们 也 对 D 维 向 量 z 的 高 斯 分 布 也 感 兴趣 ， 定 义 为 























N(z | ,>)= 2 万 op{ ; (2 orz -由 | (1.52) 
27) [Dl 
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N(xnlp, 0”) 


7 ZT 


图 1.14: 高 斯 概率 分 布 的 似 然 函数 ， 由 红色 曲线 表示 。 这 里 ， 黑 点 表示 数据 集 {zn} 的 值 ， 公 式 (1.53) 给 
出 的 似 然 函数 对 应 于 蓝 色 值 的 乘积 。 最 大 化 似 然 函数 涉及 到 调节 高 斯 分 布 的 均值 和 方差 ， 使 得 这 个 乘积 
最 大 。 


其 中 DD 维 向 量 1 被 称 为 均值 ，D x 厂 的 矩阵 于 被 称 为 协 方差 ，| 忆 | 表示 互 的 行列 式 。 我 们 将 在 本 章 
中 简短 地 使 用 多 变量 高 斯 分 布 ， 详 细 的 性 质 将 在 2.3 节 讨论 。 

现在 假定 我 们 有 一 个 观测 的 数据 集 x = (z1,.…. ,zn) ， 表 示 标 量变 量 z 的 N 次 观测 。 注 意 ， 
我 们 使 用 了 一 个 字体 不 同 的 x 来 和 向 量变 量 (x1,... ,xp)" 作 区 分 ， 后 者 记 作 x。 我 们 假定 各 次 观 
测 是 独立 地 从 高 斯 分 布 中 抽取 的 ， 分 布 的 均值 4 和 方差 o? 未 知 ， 我 们 想 根 据 数据 集 来 确定 这 些 
参数 。 独 立地 从 相同 的 数据 点 中 抽取 的 数据 点 被 称 为 独立 同 分 布 (independent and identically 
distributed) ， 通 常 缩写 成 ii.d.。 我 们 已 经 看 到 两 个 独立 事件 的 联合 概率 可 以 由 各 个 事件 的 边缘 
0 由 于 我 们 的 数据 集 x 是 独立 同 分 布 的 ， 因 此 给 定 K 和 o?， 我们 可 以 给 出 数据 集 
概率 





(CHmc -ITw wr | pt (1.53) 


当 我 们 把 它 看 成 4 和 ”的 时 候 ， 这 就 是 高 其 分布 的 似 然 函 孝 ， 图 像 如 图 114 所 示 ， 

使 用 一 个 观测 数据 集 来 决定 概率 分 布 的 参数 的 一 个 通用 的 标准 是 寻找 使 似 然 函 数 取 得 最 大 值 
的 参数 值 。 这 个 标准 看 起 来 可 能 很 奇怪 ， 因 为 从 我 们 之 前 对 于 概率 论 的 讨论 来 看 ， 似乎 在 给 定 
数据 集 的 情况 下 最 大 化 概率 的 参数 (而 不 是 在 给 定 参数 的 情况 下 最 大 化 数据 集 出 现 的 概率 ) 是 
更 加 自然 的 。 事 实 上 ， 这 两 个 标准 是 相关 的 。 我 们 后 面 将 使 用 曲线 拟 合 的 例子 来 说 明 这 一 点 。 

但 是 现在 ， 我 们 要 通过 最 大 化 似 然 函数 (1.53) 来 确定 高 斯 分 布 中 未 知 的 参数 4 和 o>?。 实 际 
应 用 中 ， 考 虑 似 然 函数 的 对 数值 更 方便 。 由 于 对 数 函 数 是 一 个 单调 递增 函数 ， 最 大 化 某 个 函数 
的 对 数 等 价 于 最 大 化 这 个 通 数 。 取 对 数 不 仅 简化 了 后 续 数 学 分 析 ， 也 有 助 于 数值 计算 ， 因为 大 
量 小 概率 的 乘积 很 容易 下 浇 ， 这 可 以 通过 计算 对 数 概率 的 和 的 方式 来 解决 。 根 据 公式 (1.46) 和 
公式 (1.53) ， 对 数 似 然 函 数 可 以 写成 











N 
Inp(x | 1,02) = -7 De -lino 了 In(27) (1.54) 
关于 /， 最 大 化 函数 (1.54) ， 我 们 可 以 得 到 最 大 似 然 解 


1 
HE 二 一》 on (1.55) 
ML > 
这 是 样本 均值 (sample mean) ， 即 观测 值 {x} 的 均值 。 类 似 地 ， 关 于 o? 最 大 化 函数 (1.54) ， 
我 们 得 到 了 方差 的 最 大 似 然 解 


N 
or = KN De — pmr) (1.50) 


这 是 关于 样本 均值 wi 的 样本 方差 (sample variance) 。 注 意 ， 我 们 要 同时 关于 /和 cz? 来 最 大 
化 函数 (1.54) ,但 是 在 高 斯 分 布 的 情况 下 ,4 的 解 和 o* 无 关 ， 因 此 我 们 可 以 首先 估计 公式 
(1.55) 然后 使 用 这 个 结果 来 估计 公式 (1.56) 。 
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(9 


图 1.15: 这 幅 图 说 明了 使 用 最 大 似 然 方 法 确定 高 斯 分 布 的 方差 时 ， 偏 移 是 如 何 产 生 的 。 绿 色 曲 线 表示 真 实 
的 高 斯 分 布 ， 数 据点 是 根据 这 个 概率 分 布 生成 的 。 三 条 红色 曲线 表示 对 三 个 数据 集 拟 合 得 到 的 高 斯 概率 
分 布 ， 每 个 数据 集 包含 两 个 蓝 色 的 数据 点 ， 使 用 公式 〈1.55) 和 公式 (1.56) 给 出 的 最 大 似 然 的 结果 进行 
拟 合 。 对 三 个 数据 集 求 平均 ， 均 值 是 正确 的 ， 但 是 方差 被 系统 性 地 低估 了 ， 因 为 它 是 相对 样本 均值 进行 
测量 的 ， 而 不 是 相对 真实 的 均值 进行 测量 。 





稍 后 在 本 章 中 ， 以 及 在 后 续 的 章节 中 ,我 们 要 强调 最 大 似 然 方 法 的 极 大 的 局 限 性 。 这 里 ,我 
们 通过 考察 我 们 给 出 的 一 元 高 斯 分 布 的 最 大 似 然 参数 解 ， 来 稍微 说 明 一 下 这 个 问题 。 特 别 
地 ， 我 们 会 看 到 ， 最 大 似 然 方法 系统 化 地 低估 了 分 布 的 方差 。 这 是 一 种 叫做 偏 移 〈bias) 的 现 
象 的 例子 ， 与 多 项 式 曲 线 拟 合 问题 中 遇 到 的 过 拟 合 问题 相关 。 我 们 首先 注意 到 ， 最 大 似 然 
解 4mi 和 ojyz 都 是 数据 集 z1,.… ,ZN 的 函数 。 考 虑 这 些 量 关 于 数据 集 的 期 望 。 数 据 集 里 面 的 点 来 
自 参 数 为 1 和 o 的 高 斯 分 布 。 很 容易 证 明 




















END 三 以 (1.57) 





loi = (i ) (1.58) 
因此 ， 最 大 似 然 估计 的 平均 值 将 会 得 到 正确 的 均值 ， 但 是 将 会 低估 方差 ， 因 子 为 AL。 这 背后 
的 直 党 在 图 1.15 中 说 明 。 
根据 公式 (1.58) ， 下 面 的 对 于 方差 参数 的 估计 是 无 偏 的 。 
N 上 二 
02 三 = 三 N11 i = um) (1.59) 


n=1 














注意 ， 当 数据 点 的 数量 N 增 大 时 ， 最 大 似 然 解 的 偏 移 会 变 得 不 太 严 重 ， 并 且 在 极 
限 N 一 co 的 情况 下 ， 方 差 的 最 大 似 然 解 与 产生 数据 的 分 布 的 真实 方差 相等 。 在 实际 应 用 中 ， 只 
要 入 的 值 不 太 小 ， 那 么 偏 移 的 现象 不 是 个 大 问题 。 然 而 ， 在 本 书 中 ， 我 们 感 兴趣 的 是 带 有 很 多 
参数 的 复杂 模型 。 这 些 模 型 中 ， 最 大 似 然 的 侦 移 问题 会 更 加 严重 。 实 际 上 ， 我 们 会 看 到 ， 最 大 
似 然 的 偏 移 问题 是 我 们 在 多 项 式 曲线 拟 合 问题 中 遇 到 的 过 拟 合 问题 的 核心 。 


1.2.5 重新 考察 曲线 拟 合 问题 


我 们 已 经 看 到 ， 多 项 式 曲线 拟 合 的 问题 可 以 通过 误差 最 小 化 问题 来 表示 。 这 里 我 们 回 到 曲线 
拟 合 的 问题 ， 从 概率 的 角度 来 考察 它 ， 并 且 可 以 更 深刻 地 认识 误差 函数 和 正则 化 ， 并 且 能 够 让 
我 们 完全 从 贝 叶 斯 的 角度 来 看 待 这 个 问题 。 

曲线 拟 合 问题 的 目标 是 能 够 根据 N 个 输入 x = (z1,.….,zN) 组 成 的 数据 集 和 它们 对 应 的 目标 
值 t = (1,.…. ,tn)”， 在 给 出 输入 变量 x 的 新 值 的 情况 下 ， 对 目标 变量 t 渤 行 预测 。 我 们 可 以 使 用 
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y (xo, w) 





XO ya 


图 1.16: 用 图 形 说 明了 公式 (1.60) 给 出 的 给 定 z 的 条 件 下 t 的 高 斯 条 件 概率 分 布 ， 其 中 均值 为 多 项 式 函 
数 y(z,w)， 精 度 由 参数 6 给 出 ， 它 与 方差 的 关系 为 = 07。 


概率 分 布 来 表达 关于 目标 变量 的 值 的 不 确定 性 。 为 了 达到 这 个 目的 ， 我 们 要 假定 ,给 定 z 的 值 ， 
对 应 的 t 值 服从 高 斯 分 布 ， 分 布 的 均值 为 y(z,w)， 由 公式 (1.1) 给 出 。 因 此 ， 我 们 有 


p(t | 2,1w,B) =N(t | yr,w, B71!)) (1.60) 


其 中 ， 为 了 和 后 续 章 节 中 的 记号 相同 ， 我 们 定义 了 精度 参数 8， 它 对 应 于 分 布 方差 的 倒数 。 图 
1.16 给 出 了 图 形 化 表示 。 

我 们 现在 用 训练 数据 {x,t}， 通 过 最 大 似 然 方法 ， 来 决定 未 知 参数 w 和 6 的 值 。 如 果 数 据 假定 
从 分 布 (1.60) 中 抽取 ， 那 么 似 然 函数 为 





N 
plt |x,w,8) = | [Nt | yzn, 1), B87) (1.61) 
n=1 
与 我 们 之 前 处 理 简单 高 斯 分 布 时 的 做 法 一 样 ， 景 大 化 对 数 似 然 函数 是 很 方便 的 。 用 公式 (1.46) 
给 出 的 高 斯 分 布 的 形式 来 替换 ， 我 们 可 以 得 到 对 数 似 然 函 数 





ln ptt | x,w, 8) = 要。 >》 {y(zn to) 1 可 Ing SIn(27) (1.62) 


首先 考虑 确定 多 项 式 系 数 的 最 大 似 然 解 ( 记 作 wxmr) 。 这 些 由 公式 (1.62) 关于 ww 来 确定 。 
为 了 达到 这 个 目的 ,我们 可 以 省 略 公 式 (1.62) 右 侧 的 最 后 两 项 ， 因 为 他 们 不 依赖 于 w。 并 且 ， 
我 们 注意 到 ， 使 用 一 个 正 的 常数 系数 来 缩放 对 数 似 然 函数 并 不 会 改变 关于 ww 的 最 大 值 的 位 置 ， 
因此 我 们 可 以 用 来 代替 系数 5。 最 后 ， 我 们 不 去 最 大 化 似 然 函数 ， 而 是 等 价 地 去 最 小 化 负 对 数 
似 然 函数 。 于 是 我 们 看 到 ， 目 前 为 止 对 于 确定 的 问题 来 说 ， 最 大 化 似 然 函数 等 价 于 最 小 化 由 
公式 (1.2) 定义 的 平方 和 误差 函数 。 因 此 ， 在 高 斯 噪声 的 假设 下 ， 平 方 和 误差 函数 是 最 大 化 似 
然 函 数 的 一 个 自然 结果 。 
我 们 也 可 以 使 用 最 大 似 然 方法 来 确定 高 斯 条 件 分 布 的 精度 参数 8。 关 于 6 来 最 大 化 函数 
(1.62) ,我 们 有 
1 


N 
Bry 二 {y(n wa) A (1.63) 
了 一 


我 们 又 一 次 首先 确定 控制 均值 的 参数 向 量 wxr ， 然 后 使 用 这 个 结果 来 寻找 精度 xxzr。 这 与 
简单 高 斯 分 布 时 的 情形 相同 。 

已 经 确定 了 参数 w 和 5， 我 么 现在 可 以 对 新 的 z 的 值 进行 预测 。 由 于 我 们 现在 有 一 个 概率 模 
型 ， 预测 可 以 通过 给 出 t 的 概率 分 布 的 预测 分 布 (predictive distribution) 来 表示 (而 不 仅仅 是 一 
个 点 的 估计 ) 。 预 测 分 布 通过 把 最 大 似 然 参数 代入 公式 (1.60) 给 出 。 


plt | z, wuar, Bar) = N(t | yr, wur), By) (1.64) 
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现在 让 我 们 朝 着 贝 叶 斯 的 方法 前 进一步 ， 引 入 在 多 项 式 系 数 w 上 的 先 验 分 布 。 简 单 起 见 ， 我 
们 考虑 下 面 形式 的 高 斯 分 布 
p(w|a)=N(w|0,a 1T) = ( 辫 ) exp{ 一 37) (1.65) 
其 中 a 是 分 布 的 精度 ，M + 1] 是 对 于 M 阶 多 项 式 的 向 量 忆 的 元 素 的 总 数 。 像 w 这 样 控制 模型 参数 
分 布 的 参数 ， 被 称 为 超 参 数 (hyperparameters) 。 使 用 贝 叶 斯 定理 ，w 的 后 验 概率 正比 于 先 验 分 
布 和 似 然 函 数 的 乘积 。 





plw | x,t, a,B) x plt | x, 1w, BPWw | al) (1.60) 
给 定数 据 集 ， 我 们 现在 通过 寻找 最 可 能 的 w 值 ( 即 最 大 化 后 验 概率 ) 来 确定 w。 这 种 技术 被 称 
为 最 大 后 验 (maximum posterior) ,简称 MAP。 取 公式 (1.66) 的 负 对 数 ， 结 合 公式 (1.62) 和 
公式 (1.65) ， 我 们 可 以 看 到 ， 最 大 化 后 验 概率 就 是 最 小 化 下 式 : 


Bo a 

了 2 {len, Ww) 一 fn} 要 Fw (1.67) 
因此 我 们 看 到 最 大 化 后 验 概率 等 价 于 最 小 化 正则 化 的 平方 和 误差 函数 (之 前 在 公式 (1.4) 中 提 
到 ) ， 正 则 化 参数 为 A 二 9。 


1.2.6” 贝 叶 斯 曲线 拟 合 


虽然 我 们 已 经 谈 到 了 先 验 分 布 p(w | a)， 但 是 我 们 目前 仍然 在 进行 w 的 点 估计 ， 这 并 不 是 贝 
叶 斯 观点 。 在 一 个 纯粹 的 贝 叶 斯 方法 中 ， 我 们 应 该 自始至终 地 应 用 概率 的 加 和 规则 和 乘积 规 
则 。 我 们 稍 后 会 看 到 ， 这 需要 对 所 有 ww 值 进行 积分 。 对 于 模式 识别 来 说 ， 









线 拟 合 问题 中 ， 我 们 知道 训练 数据 x 和 t， 以 及 一 个 新 的 测试 点 +， 我们 的 目标 是 预测 的 
值 。 因 此 我 们 想 估计 预测 分 布 p(t | x,x,t)。 这 里 我 们 要 假设 参数 a 和 6B 是 固定 的 ， 事 先知 道 的 
(后 续 章 蔬 中 我 们 会 讨论 这 种 参数 如 何 通过 贝 叶 斯 方法 从 数据 中 推断 出 来 ) 。 
简单 地 说 ， 贝 叶 斯 方法 就 是 自始至终 地 使 用 概率 的 加 和 规则 和 乘积 规则 。 因 此 预测 概率 可 以 
写成 下 面 的 形式 
p(t | x,x,t) = fr | x,w)p(w | x,t) dw (1.68) 


这 里 ,p(t | xz,w) 由 公式 (1.60) 给 出 ， 并 且 我 们 省 略 了 对 于 a 和 6 的 依赖 ， 简 化 记号 。 这 
里 ，p(w | x,t) 是 参数 的 后 验 分 布 ， 可 以 通过 对 公式 (1.66) 归 一 化 得 到 。 我 们 在 3.3 节 将 看 到 ， 
对 于 曲线 拟 合 这 样 的 问题 ， 后 验 分 布 是 一 个 高 斯 分 布 ， 可 以 解析 地 求 出 。 类 似 地 ， 公 式 (1.68) 
中 的 积分 也 可 以 解析 地 求解 。 因 此 ， 预 测 分 布 由 高 斯 的 形式 给 出 : 


p(t | zxit) =N (t | m(z), s2(z)) (1.69) 
其 中 ,均值 和 方差 分 别 为 
m(z) = 89(z)7S >》 brn)tn (1.70) 
et 
s°(7) = B+ pr) Sz) (1.7D 
这 里 ,矩阵 5 由 下 式 给 出 
Sl1=al+p)》 prn)p(rn)T (1.72) 
nd 


其 中 ， 了 是 单位 矩阵 ， 向 量 p(2) 被 定义 为 $i(7) = 7(i= 0,.….,M)。 

我 们 看 到 ， 公 式 (1.69) 的 预测 分 布 的 均值 和 方差 依赖 于 z。 公 式 (1.71) 的 第 一 项 表示 预测 
值 的 不 确定 性 ， 这 种 不 确定 性 由 目标 变量 上 的 噪声 造成 。 在 最 大 似 然 的 预测 分 布 (1.64) 中 ， 
这 种 不 确定 性 通过 By 表达。 然而 ， 第 二 项 也 对 参数 ww 的 不 确定 性 有 影响 。 这 是 贝 叶 斯 方法 的 
结果 。 图 1.17 说 明了 正 弱 曲线 的 回归 问题 。 
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图 1.17: 用 贝 叶 斯 方法 处 理 多 项 式 曲 线 拟 合 问题 得 到 的 预测 分 布 的 结果 。 使 用 的 多 项 式 为 M = 9， 超 参数 
被 固定 为 a = 5 x 10 习 和 6 = 11.1 (对 应 于 已 知 的 噪声 方差 ) 。 其 中 ， 红 色 曲 线 表 示 预 测 概率 分 布 的 均 
值 ， 红 色 区 域 对 应 于 均值 周围 土 1 标准 差 的 范围 。 


图 1.18: 参数 为 8 的 交叉 验证 方法 ， 这 里 说 明了 5 = 4 的 情形 。 以 能 够 得 到 的 数据 为 输入 ， 将 其 划分 为 5 组 

(最 简单 的 情况 下 ， 等 于 数据 的 个 数 ) 。 然 后 ，5 一 1 组 数据 被 用 于 训练 一 组 模型 ， 然 后 在 剩余 的 一 组 上 
进行 评估 。 然 后 对 于 所 有 3 的 可 能 选择 重复 进行 这 一 步 又， 使 用 剩余 的 一 组 进行 评 佑 ， 这 里 用 红色 标记 
出 来 。 之 后 ， 对 5 轮 运行 结果 的 表现 得 分 求 平均 值 。 








1.3 ”模型 选择 


在 我 们 使 用 最 小 平方 拟 合 多 项 式 曲 线 的 例子 中 ,我 们 看 到 ， 存 在 一 个 最 优 的 多 项 式 阶 数 ， 能 
够 给 出 最 好 的 结果 。 多 项 式 的 阶 数 控制 了 模型 的 自由 参数 的 个 数 ， 因 此 控制 了 模型 的 复杂 度 。 
通过 正则 化 的 最 小 平方 ， 正 则 化 系数 和 也 控制 了 我 们 的 模型 复杂 度 。 而 对 于 更 复杂 的 模型 ， 例 如 
混合 分 布 或 者 神经 网 络 ， 可 能 存在 多 个 控制 模型 复杂 度 的 参数 。 在 实际 应 用 中 ， 我 们 需要 确定 
这 些 参数 的 值 ， 这 么 做 的 主要 目的 通常 是 为 了 在 新 数据 上 能 做 出 最 好 的 预测 。 此 外 ， 除 了 找到 
模型 中 复杂 度 参 数 的 合适 的 值 之 外 ， 我 们 可 能 还 希望 找到 一 个 可 选 的 模型 的 范围 ， 以 便 能 够 找 
到 对 于 特定 应 用 的 最 好 的 模型 。 

我 们 已 经 看 到 ， 在 最 大 似 然 方法 中 ， 由 于 过 拟 合 现象 ， 模 型 在 训练 集 上 的 表现 并 不 能 很 好 地 
表示 模型 对 于 未 知 数据 的 预测 能 力 。 如 果 数 据 量 很 大 ， 那 么 模型 选择 很 简单 。 使 用 一 部 分 可 得 
到 的 数据 ， 可 以 训练 出 一 系列 的 模型 ， 也 可 以 得 到 某 个 给 定 模型 的 一 系列 复杂 度 的 参数 值 。 之 
后 在 独立 数据 上 〈 有 时 被 称 为 验证 集 ) 比较 它们 ， 选 择 预 测 表现 最 好 的 模型 即 可 。 如 果 模 型 的 
设计 使 用 有 限 规模 的 数据 集 欠 代 很 多 次 ， 那 么 对 于 验证 数据 会 发 生 一 定 程度 的 过 拟 合 ， 因 此 保 
留 一 个 第 三 方 的 测试 集 是 很 有 必要 的 。 这 个 测试 集 用 来 最 终 评 估 选 择 的 模型 的 表现 。 

但 是 在 许多 实际 应 用 中 ， 训 练 数据 和 测试 数据 都 是 很 有 限 的 。 为 了 建立 好 的 模型 ， 我们 
想 使 用 尽 可 能 多 的 可 得 到 的 数据 进行 训练 。 然 而 ， 如 果 验 证 机 很 小 ， 它 对 预测 表现 的 估计 
就 会 有 一 定 的 噪声 。 解 决 这 种 困境 的 一 种 方法 是 使 用 交叉 验证 (cross validation) ， 如 图 1.18 
所 示 。 这 种 方法 能 够 让 可 得 到 数据 的 所 :用 于 训练 ， 同时 使 用 所 有 的 数据 来 评估 表现 。 当 数 
据 相 当 稀 下 的 时 候 ， 考 虑 9 = N 的 情况 很 合适 ， 其 中 NN 是 数据 点 的 总 数 。 这 种 技术 叫做 “ 留 一 
法 ”(leave-one-out) 。 

交 又 验证 的 一 个 主要 的 缺点 是 需要 进行 的 训练 的 次 数 随 着 5 而 增加 ， 这 对 于 训练 本 身 很 耗 时 
的 问题 来 说 是 个 大 问题 。 对 于 像 交 叉 验 证 这 种 使 用 分 开 的 数据 来 评估 模型 表现 的 方法 来 说 ， 还 
有 一 个 问题 : 对 于 一 个 单一 的 模型 ， 我 们 可 能 有 多 个 复杂 度 参 数 (例如 可 能 有 若干 个 正则 化 参 
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图 1.19: 石油 流 数据 的 输入 变量 ze 和 2z7 的 散 点 图 ， 其 中 红色 表示 “ 同 质 状 类别， 绿色 表示 " 环 状 "类 别 ， 划 
色 表 示 " 注 片 状 " 类 别 。 我 们 的 目标 是 分 类 新 的 数据 点 ， 记 作 "x”。 


数 ) 。 在 最 坏 的 情况 下 ， 探 索 这 些 参数 的 组 合 所 需 的 训练 次 数 可 能 是 参数 个 数 的 指数 函数 。 很 
显然 ， 我 们 需要 一 种 更 好 的 方法 。 理 想 情 况 下 ， 模 型 的 选择 应 该 只 依赖 于 训练 数据 ， 并 且 应 该 
允许 在 一 轮训 练 中 对 比 多 个 超 参数 以 及 模型 类 型 。 因 此 我 们 需要 找到 一 种 模型 表现 的 度量 ， 它 
只 依赖 于 训练 数据 ， 并 且 不 会 由 于 过 拟 合 产生 偏 移 的 问题 。 

历史 上 各 种 各 样 的 “信息 准则 ”被 提出 来 。 这 些 “ 信 息 准则 ”尝试 修正 最 大 似 然 的 偏差 。 修 正 的 
方法 是 增加 一 个 惩罚 项 来 补偿 过 于 复杂 的 模型 造成 的 过 拟 合 。 例 如 ， 赤 池 信 息 准则 (Akaike 
information criterion) ， 或 者 简称 为 AIC (Akaike, 1974) ， 选 择 下 面 使 这 个 量 最 大 的 模型 : 


lInp(D | WML) —M (1.73) 


这 里 ，p(D | wz) 是 最 合适 的 对 数 似 然 函数 ，M 是 模型 中 可 调节 参数 的 数量 。 这 个 量 的 一 种 变 
体 ， 被 称 为 贝 叶 斯 信息 准则 (Bayesian information criterion) ,或 者 简称 为 BIC， 将 会 在 4.4.1 节 
讨论 。 但 是 ， 这 种 准则 没有 考虑 模型 参数 的 不 确定 性 ， 在 实际 应 用 中 它们 倾向 于 选择 过 于 简单 
的 模型 。 因 此 ， 我 们 会 在 3.4 节 中 讨论 完整 的 贝 叶 斯 方法 。 我 们 会 看 到 ， 这 种 方法 中 ， 复 杂 度 的 
惩罚 性 是 如 何 自然 地 得 出 。 


1.4 维度 灾难 


在 多 项 式 曲线 拟 合 的 例子 中 ， 我 们 只 有 一 个 输入 变量 z。 但 是 对 于 模式 识别 的 实际 应 用 来 
说 ， 我 们 不 得 不 处 理由 许多 输入 变量 组 成 的 高 维 空间 。 正 如 我 们 现在 讨论 的 那样 ， 这 个 问题 是 
个 很 大 的 挑战 ， 也 是 影响 模式 识别 技术 设计 的 重要 因素 。 

为 了 说 明 这 个 问题 ， 我 们 考虑 一 个 人 工 合成 的 数据 集 。 这 个 数据 集中 的 数据 表示 一 个 管道 中 
石油 、 水 、 天 然 气 各 自 所 占 的 比例 (Bishop and James, 1993) 。 这 三 种 物质 在 管道 中 的 儿 何 形 
状 有 三 种 不 同 的 配置 ， 被 称 为 “ 同 质 状 "、“ 环 状 " 和 "薄片 状 *。 三 种 物质 各 自 的 比例 也 会 变化 。 每 
个 数据 点 由 一 个 12 维 的 输入 向 量 组 成 。 输 入 向 量 是 伽 马 射线 密度 计 的 读数 ， 度 量 了 一 鹤 束 伽 马 
射线 穿 过 管道 后 强度 的 衰减 。 数 据 集 的 详细 描述 见 附录 A。 图 1.19 给 出 了 数据 集 里 的 100 个 点 ， 
每 个 点 只 画 出 了 两 个 分 量 z6 和 z7 (为 了 说 明 的 方便 ， 剩 余 的 10 个 分 量 被 忽略 ) 。 每 个 数据 点 根 
据 它 属于 的 三 种 几何 类 别 之 一 被 标记 。 我 们 的 目标 是 使 用 这 个 数据 作为 训练 集 ， 训 练 一 个 模 
型 ， 能 够 对 于 一 个 新 的 (ze,z7) 的 观测 〈 例 如 图 1.19 中 标记 为 又 的 点 ) 进行 分 类 。 我 们 观察 
到 ， 标 记 为 又 的 点 周围 由 许多 红色 的 点 ， 因 此 我 们 可 以 猜想 它 属 于 红色 类 别 。 然 而 ， 它 附近 
也 有 很 多 绿色 的 点 ， 因 此 我 们 也 可 以 猜想 它 属于 绿色 类 别 。 似 乎 它 不 太 可 能 属于 蓝 色 类 别 。 直 
观看 来 ， 标 记 为 又 的 点 的 类 别 应 该 与 训练 集中 它 附近 的 点 强烈 相关 ， 与 距离 比较 远 的 点 的 相 
关 性 比较 弱 。 事 实 上 ， 这 种 直观 的 想法 是 合理 的 ， 将 会 在 后 续 章 节 中 详细 证 明 。 我 们 如 何 把 这 
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图 1.20: 分 类 问题 的 一 种 简单 的 解法 ， 其 中 输入 空间 被 划分 为 单元 格 ， 任 何 新 的 测试 数据 点 被 划分 到 同一 
单元 格 内 具有 最 多 数据 的 类 别 。 正 如 我 们 将 看 到 的 那样 ， 这 种 简单 的 方法 有 许多 严重 的 缺点 。 





图 1.21: 维度 灾难 的 例子 ， 展 示 了 单元 格 的 数量 随 着 空间 的 维度 D 指 数 增长 。 为 了 清晰 起 见 ，D = 3 的 情 
形 中 只 给 出 了 立方 体 区 域 的 一 个 子 集 。 


种 直观 想法 转化 为 学 习 算法 呢 ? 一 种 简单 的 方式 是 把 输入 空间 划分 成 小 的 单元 格 ， 如 图 1.20 所 
示 。 当 给 出 测试 点 ， 我 们 要 预测 类 别 的 时 候 ， 我 们 首先 判断 它 属 于 哪个 单元 格 ， 然 后 我 们 寻找 
训练 集中 落 在 同一 个 单元 格 中 的 训练 数据 点 。 测 试点 的 类 别 就 是 测试 点 所 在 的 单元 格 中 数量 最 
多 的 训练 数据 点 的 类 别 。 

这 种 朴素 的 观点 有 很 多 问题 。 当 需要 处 理 的 问题 有 很 多 输入 数据 ， 并 且 对 应 于 高 维 的 输入 空 
间 时 ， 有 一 个 问题 就 变 得 尤为 突出 。 问 题 的 来 源 如 图 1.21 所 示 。 图 1.21 表 明 ， 如 果 我 们 把 空间 的 
区 域 分 割 成 一 个 个 的 单元 格 ， 那 么 这 些 单元 格 的 数量 会 随 着 空间 的 维 数 以 指数 的 形式 增 大 。 当 
单元 格 的 数量 指数 增 大 时 ， 为 了 保证 单元 格 不 为 空 ， 我 们 就 不 得 不 需要 指数 量 级 的 训练 数据 。 
很 明显 ， 我 们 只 能 在 变量 数量 相当 少 的 情况 下 才能 使 用 这 种 方法 ， 因 此 我 们 需要 寻找 一 些 更 高 
级 的 方法 。 

我 们 可 以 更 深刻 地 讨论 一 下 高 维 空间 中 出 现 的 问题 。 让 我 们 回 到 多 项 式 拟 合 的 问题 ， 考 虑 一 
下 我 们 如 何 把 上 面 的 方法 推广 到 输入 空间 有 多 个 变量 的 情形 。 如 果 我 们 有 D 个 输入 变量 ， 那 么 
一 个 三 阶 多 项 式 就 可 以 写成 如 下 的 形式 


D D D 
y(z, WwW) = wo 十 和 Wizi 十 > WijTiTj 十 > > > Wijk TiTI Th (1.74) 
记 1 i=1 i=1 j=1 k=1 
随 着 DD 的 增加 ， 独 立 的 系数 的 数量 (并非 所 有 的 系数 都 独立 ， 因 为 变量 x 之 间 的 互 换 对 称 性 ) 的 
增长 速度 正比 于 D3。 在 实际 应 用 中 ， 为 了 描述 数据 中 复杂 的 依存 关系 ， 我 们 可 能 需要 使 用 高 阶 
多 项 式 。 对 于 一 个 M 阶 多 项 式 ， 系 数 数量 的 增长 速度 类 似 于 DX% 。 虽 然 增长 速度 是 一 个 宕 函 





31 
wwaibbt.com DUODDOODOD 


volume fraction 














图 1.22: 对 于 不 同 的 D， 位 于 7 = 1 一 e 和 7 = 1 之 间 的 部 分 与 球 的 体积 比 。 


数 ， 而 不 是 指数 函数 ， 但 是 这 仍然 说 明了 ， 这 种 方法 会 迅速 变 得 很 笨重 ， 因 此 在 实际 应 用 中 很 
受 限 。 

我 们 在 三 维 空间 中 建立 的 几何 直 党 会 在 考虑 高 维 空间 时 不 起 作用 。 例 如 ， 考 虑 忆 维 空间 的 一 
个 半径 7 = 1 的 球体 ， 请 问 ， 位 于 半径 > = 1 一 c 和 半径 7 = 1 之 间 的 部 分 占 球 的 总 体积 的 百分比 是 
多 少 ? 我 们 注意 到 ，D 维 空间 的 半径 为 ?的 球体 的 体积 一 定 是 ?了 的 倍数 ， 因 此 我 们 有 


Vp(7) = Kpr? (1.75) 


其 中 常数 Kp 值 依 赖 于 D。 因 此 我 们 要 求解 的 体积 比 就 是 


Vp(1)— Vp(1 -6 
Vp(1) 


图 1.22 给 出 了 不 同 D 值 下 ， 上 式 与 e 的 关系 。 我 们 看 到 ， 对 于 较 大 的 D， 这 个 体积 比 趋 近 于 1， 即 
使 对 于 小 的 e 也 是 这 样 。 因 此 ， 在 高 维 空间 中 ， 一 个 球体 的 大 部 分 体积 都 聚集 在 表面 附近 的 薄 球 
壳 上 ! 

再 举 一 个 和 模式 识别 直接 相关 的 例子 。 考 虑 高 维 空间 的 高 斯 分 布 的 行为 。 如 果 我 们 从 笛 卡 
尔 坐 标 系 变换 到 极 坐 标 系 ， 然 后 把 方向 变量 积分 出 来 ， 我 们 就 得 到 了 一 个 概率 密度 的 表达 
式 p(7)， 这 个 表达 式 是 关于 距离 原点 的 半径 > 的 函数 。 因 此 pl(7)67 就 是 位 于 半径 7 处 厚度 为 6r 的 藩 
球 壳 内 部 的 概率 质量 。 对 于 不 同 的 D 值 ， 这 个 概率 分 布 的 图 像 如 图 1.23 所 示 。 我 们 看 到 ， 对 于 大 
的 D 值 ， 高 斯 分 布 的 概率 质量 集中 在 薄 球 壳 处 。 

高 维 空间 产生 的 这 种 困难 有 时 被 称 为 维度 灾难 (curse of dimensionality) (Bellman, 
1961) 。 本 书 中 ， 我 们 会 频繁 使 用 一 维 或 者 二 维 空间 中 的 例子 来 说 明 问 题 ， 因 为 这 使 得 方法 可 
以 很 容易 地 通过 图 形 展示 出 来 。 但 是 读者 需要 注意 ， 不 是 所 有 在 低 维 空间 的 直 党 都 可 以 推广 到 
高 维 空间 。 

虽然 维度 灾难 在 模式 识别 应 用 中 是 一 个 重要 的 问题 ， 但 是 它 并 不 能 阻止 我 们 寻找 应 用 于 高 维 
空间 的 有 效 技 术 。 原 因 有 两 方面 。 第 一 ， 真 实 的 数据 经 常 被 限制 在 有 着 较 低 的 有 效 维度 的 空间 
区 域 中 ， 特 别 地 ， 在 目标 值 会 发 生 重要 变化 的 方向 上 也 会 有 这 种 限制 。 第 二 ， 真 实数 据 通常 比 
较 光滑 (至 少 局 部 上 比较 光滑 ) ， 因 此 大 多 数 情况 下 ， 对 于 输入 变量 的 微小 改变 ， 目 标 值 的 改 
变 也 很 小 ， 因 此 对 于 新 的 输入 变量 ,我 们 可 以 通过 局 部 的 类 似 于 插值 的 技术 来 进行 预测 。 成 功 
的 模式 识别 技术 利用 上 述 的 两 个 性 质 中 的 一 个 ， 或 者 都 用 。 例 如 ， 考 虑 制造 业 中 的 一 个 应 用 。 
这 个 应 用 中 ， 照 相机 拍摄 了 传送 带 上 的 相同 的 平面 物体 ， 目 标 是 判断 它们 的 方向 。 每 一 张 图 片 
都 是 高 维 空间 中 的 一 个 点 。 高 维 空间 的 维 数 由 像素 的 数量 决定 。 由 于 物体 会 出 现在 图 片 的 不 同 
位 置 ， 并且 方 向 不 同 ， 因 此 图 像 之 间 有 3 个 自由 度 ， 并 且 一 组 图 片 将 会 处 在 高 维 空间 的 一 个 三 维 





=1— (1-e)? (1.70) 
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图 1.23: 不 同 的 维度 刀 中 的 高 斯 分 布 的 概率 密度 关于 半径 > 的 关系 。 在 高 维 空间 中 ， 高 斯 分 布 的 大 部 分 概 
率 质量 位 于 某 个 半径 上 的 一 个 薄 球 壳 上 。 





流 形 中 。 由 于 物体 的 位 置 或 方向 与 像素 灰 度 值 的 关系 很 复杂 ， 因 此 流 形 一 定 是 高 度 非 线性 的 。 
如 果 目 标 是 学 习 一 个 模型 ， 这 个 模型 能 够 以 图 片 作 为 输入 ， 然 后 输出 物体 的 方向 ， 与 位 置 无 
关 ， 那 么 这 个 流 形 中 就 只 有 一 个 自由 度 了 。 这 很 有 意义 。 


1.5 决策 论 


在 12 节 中 ， 我 们 已 经 看 到 了 概率 论 是 如 何 提供 给 我 们 一 个 自始至终 的 数学 框架 来 量化 和 计 
算 不 确定 性 。 这 里 我 们 将 要 转 而 讨论 决策 论 。 当 决策 论 与 概率 论 结合 的 时 候 ， 我 们 能 够 在 涉及 
到 不 确定 性 的 情况 下 做 出 最 优 的 决策 。 这 在 模式 识别 中 经 常 遇 到 。 

假设 我 们 有 一 个 输入 向 量 z 和 对 应 的 目标 值 向 量 上 ， 我 们 的 目标 是 对 于 一 个 新 的 z 值 ， 
预测 :。 对 于 回归 问题 , t 由 连续 变量 组 成 ， 而 对 于 分 类 问题 ， 厂 示 类 别 标签 。 联 合 概率 
分 布 p(x,t) 完 整地 总 结 了 与 这 些 变 量 相 关 的 不 确定 性 。 从 训练 数据 集中 确定 p(z, 刀 是 推断 

(inference) 问题 的 一 个 例子 ， 并 且 通 常 是 一 个 非常 难 的 问题 。 对 这 种 问题 的 解答 是 本 书 大 部 
分 内 容 的 主题 。 但 是 在 一 个 实际 应 用 中 ， 我 们 经 常 必须 对 t 的 值 做 出 具体 的 预测 ， 或 者 更 一 般 
地 ， 根 据 我 们 对 于 t 的 可 能 取 值 的 理解 ,采取 一 个 具体 的 动作 。 这 一 方面 就 是 决策 论 的 主题 。 

例如 ， 考 虑 一 个 医疗 诊断 问题 。 在 这 个 问题 中 ， 我 们 给 一 个 病人 拍 了 X 光 片 ， 我 们 想 判 断 病 
人 是 否 得 了 癌症 。 在 这 种 情形 下 ， 输 入 癌 量 z 是 X 光 片 的 像素 的 灰 度 值 集合 ， 输 出 变量 t 表 示 病 
人 患 有 癌症 ( 记 作 类 C1) 或 者 不 患 癌症 ( 记 作 类 C2) 。 例 如 ， 我 们 可 以 选择 t = 0 表示 类 C1， 选 
择 t = 1 表示 类 C2?。 我 们 稍 后 会 看 到 ， 这 种 标签 值 的 选择 对 于 概率 模型 特别 方便 。 一 般 的 推断 问 
题 就 变 成 了 确定 联合 分 布 p(z,Cp) ， 或 者 等 价 地 p(z, 妨 。 它 给 出 了 最 完整 的 概率 描述 。 虽 然 这 个 
量 很 有 用 ， 很 有 信息 量 ， 但 是 最 后 我 们 必须 确定 是 否 对 病人 进行 治疗 ， 并 且 我 们 希望 这 种 选择 
在 某 些 情况 下 是 最 优 的 〈(Duda and Hart 1973) 。 这 是 决策 步骤 ， 是 决策 论 的 主题 ， 告 诉 我 们 在 
给 定 合 适 的 概率 的 前 提 下 ， 如 何 进行 最 优 的 决策 。 我 们 会 看 到 ， 一 旦 我 们 解决 了 推断 问题 ， 那 
么 决策 阶段 通常 就 变 得 非常 简单 ， 甚 至 不 值得 一 提 。 

这 里 我 们 简要 介绍 一 下 决策 论 的 关键 思想 ， 以 满足 本 书 剩 余部 分 的 要 求 。 更 多 的 背景 以 及 更 
详细 的 讨论 可 以 参考 Berger (1985) 和 Bather (2000) 。 

在 给 出 一 个 更 详细 的 分 析 之 前 ， 让 我 们 首先 非 形式 化 地 考虑 一 下 概率 论 如 何在 做 决策 时 起 作 
用 。 当 我 们 得 到 一 个 新 病人 的 X 光 片 z 时 ， 我 们 的 目标 是 判断 这 个 X 光 片 属于 两 类 中 的 哪 一 类 。 
我 们 感 兴趣 的 是 在 给 定 这 个 图 像 的 前 提 下 ， 两 个 类 的 概率 ， 即 P(Cx | z)。 使 用 贝 叶 斯 定理 ， 这 
些 概率 可 以 用 下 面 的 形式 表示 

D(Z | Ck)p(Cx) 


p(Cx | 2) = i 


注意 ， 出 现在 贝 叶 斯 定理 中 的 任意 一 个 量 都 可 以 从 联合 分 布 p(x,Cx) 中 得 到 ， 要 么 通过 积分 的 
方式 ， 要 么 通过 关于 某 个 合适 的 变量 求 条 件 概 率 。 我 们 现在 把 p(Cx) 称 为 类 Cx 的 先 验 概率 ， 
把 p(Cx | 2) 称 为 对 应 的 后 验 概率 。 因 此 p(C1) 表 示 在 我 们 拍 X 光 之 前 ， 一 个 人 患 癌症 的 概率 。 类 
似 地 ，p(C1 | zx) 表示 使 用 X 光 中 包含 的 信息 通过 贝 叶 斯 定理 修改 之 后 的 对 应 的 后 验 概率 。 如 果 我 


(1.77) 
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及 1 了 2 


图 1.24: 两 个 类 别 的 联合 概率 分 布 p(x,Cx) 与 x 的 关系 ， 以 及 决策 边界 x = 2。x > 2 的 值 被 分 类 为 C2， 因 此 
属于 决策 区 域 R2>， 而 x < 3 的 值 被 分 类 为 C1 ， 属 于 区 域 RR!1。 错 误 出 现在 蓝 色 、 绿 色 和 红色 区 域 ， 从 而 对 
于 xz < 人， 错误 的 来 源 是 将 属于 类 别 C2 的 点 错 分 到 类 别 C (表示 为 红色 区 域 与 绿色 区 域 的 总 和 ) ， 相 反对 
于 z > 2 的 点 ， 错 误 的 来 源 是 将 属于 类 别 C1 的 点 错 分 到 类 别 C。( 表 示 为 蓝 色 区 域 ' 。 当 我 们 改变 决策 区 域 
的 位 置 7 时 ， 绿 色 区 域 和 蓝 色 区 域 的 总 面积 是 一 个 常数 ， 而 红色 区 域 的 面积 发 生 改 变 。2 的 最 优选 择 
是 p(z,C1) 的 曲线 与 p(z,C2) 的 曲线 相交 ， 对 应 于 2 = zo， 因 为 此 时 红色 区 域 消 失 。 这 等 价 于 最 小 化 错误 分 
类 率 的 决策 规则 ， 这 个 规则 将 z 分 配 到 具有 最 大 的 后 验 概率 p(Cx | z) 的 区 域 中 。 














们 的 目标 是 最 小 化 把 z 分 到 错误 类 别 中 的 可 能 性 ， 那 么 根据 直觉 ， 我 们 要 选择 有 最 大 后 验 概率 的 
类 别 。 我 们 现在 要 证 明 ， 这 种 直觉 是 正确 的 ， 并 且 我 们 还 会 讨论 进行 决策 的 更 加 通用 的 标准 。 


1.5.1 最 小 化 错误 分 类 率 


假定 我 们 的 目标 很 简单 ， 即 尽 可 能 少 地 作出 错误 分 类 。 我 们 需要 一 个 规则 来 把 每 个 z 的 值 分 
到 一 个 合适 的 类 别 。 这 种 规则 将 会 把 输入 空间 切 分 成 不 同 的 区 域 尺 : ， 这 种 区 域 被 称 为 决策 区 域 
(decision region) 。 每 个 类 别 都 有 一 个 决策 区 域 ， 区 域 尺 :中 的 所 有 点 都 被 分 到 C4. 类。 决策 区 域 
间 的 边界 被 叫做 决策 边界 (decision boundary) 或 者 决策 面 (decision surface) 。 注 意 ， 每 一 个 
决策 区 域 未 必 是 连续 的 ， 可 以 由 若干 个 分 离 的 区 域 组 成 。 在 后 续 的 章节 中 ， 我 们 会 给 出 决策 边 
界 和 决策 区 域 的 例子 。 为 了 找到 最 优 的 决策 规则， 首先 考虑 两 类 的 情形 ， 就 像 癌 症 问题 的 例子 
中 那样 。 如 果 我 们 把 属于 C1 类 的 输入 向 量 分 到 了 C2 类 (或 者 相反 ) ， 那 么 我 们 就 犯 了 一 个 错 
误 。 这 种 事情 发 生 的 概率 为 


p(mistake) 三 D(Z € R1, C2) 十 D(Z € Ro, C1) 
= p(x, C2) dz+ f p(x,C1) dz 


RL R2 








(1.78) 


我 们 可 以 随意 选择 把 点 z 分 到 两 类 中 的 某 一 类 的 决策 规则 。 很 明显 ， 为 了 最 小 化 p(mistake)， 
我 们 对 于 z 的 分 类 结果 应 该 让 公式 (1.78) 的 被 积 函 数 尽 量 小 。 因 此 ， 如 果 对 于 给 定 
的 zx 值 ， 如 果 p(zx,C1) > p(x,C2)， 那 么 我 们 就 把 x 分 到 类 别 C1 中 。 根 据 概率 的 乘积 规则 ， 我 们 
有 p(Z, Ck) 二 p(Cx | zz)p(z)。 由 于 因子 p(z) 对 于 两 项 都 相同 ， 因 此 我 们 可 以 这 样 表述 : 如 果 我 们 
把 每 个 z 分 配 到 后 验 概率 P(Ck | z) 最 大 的 类 别 中， 那么 我 们 分 类 错误 的 概率 就 会 最 小 。 对 于 一 元 
输入 变量 z 的 二 分 类 问题 ， 结 果 如 图 1.24 所 示 。 

对 于 更 一 般 的 天 类 的 情形 ， 最 大 化 正确 率 会 稍微 简单 一 些 ， 即 最 大 化 下 式 





K K 
D(cotfect) = > plz E Ry, Cr) = > p(x, Ck) dz (1.79) 
k=1 k=1” Tk 


当 区 域 及 :的 选择 使 得 每 个 x 都 被 分 到 使 P(x,Cx) 最 大 的 类 别 中 时 ， 上 式 取得 最 大 值 。 再 一 次 使 用 
乘积 规则 p(x,Cx) = p(Cx | 2)p(xX)， 并且 注意 到 因子 p(x) 对 于 所 有 项 都 相同 ， 我 们 可 以 看 到 每 
个 z 都 应 该 被 分 到 有 着 最 大 后 验 概 率 p(Cx | x) 的 类 别 中 。 
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图 1.25: 癌症 诊断 问题 的 损失 矩阵 的 例子 ， 和 矩阵 的 元 素 为 Lt;。 行 对 应 于 真实 的 类 别 ， 而 列 对 应 于 我 们 的 
决策 准则 做 出 的 分 类 。 


正常 





1.5.2 ”最 小 化 期 望 损失 


对 于 许多 应 用 ， 我 们 的 目标 要 比 单纯 地 最 小 化 错误 分 类 的 数量 更 加 复杂 。 让 我 们 再 次 考虑 医 
疗 诊断 的 问题 。 我 们 注意 到 ， 如 果 已 给 没有 患 癌症 的 病人 被 错误 地 诊断 为 患 病 ， 结 果 可 能 给 病 
人 带 来 一 些 压力 ， 并且 病人 可 能 需要 进一步 确诊 。 相 反 ， 如 果 患 癌症 的 病人 被 诊断 为 健康 ， 结 
果 可 能 会 因为 缺少 治疗 而 使 病人 过 早死 亡 。 因 此 这 两 种 错误 的 结果 是 相当 不 同 的 。 很 明显 ， 对 
于 第 二 种 错误 ， 我 们 最 好 少 犯 ， 甚 至 由 于 少 犯 第 二 种 错误 会 导致 第 一 种 错误 增加 也 没关系 。 

我 们 可 以 通过 损失 函数 (loss function) 来 形式 化 地 描述 这 个 问题 。 损 失 函 数 也 被 称 为 代价 
函数 (cost function) ， 是 对 于 所 有 可 能 的 决策 或 者 动作 可 能 产生 的 损失 的 一 种 整体 的 度量 。 我 
们 的 目标 是 最 小 化 整体 的 损失 。 注 意 ， 有 些 学 者 不 考虑 损失 函数 ， 而 是 考虑 效用 浮 数 (utility 
function) ,并 且 要 最 大 化 这 个 函数 。 如 果 我 们 让 效用 函数 等 于 损失 函数 的 相反 数 的 话 ， 那 么 这 
些 概 念 是 等 价 的 ， 因 此 整 本 书 中 我 们 都 将 使 用 损失 函数 这 个 概念 。 假 设 对 于 新 的 x 的 值 ， 真 实 
的 类 别 为 CG ， 我 们 把 x 分 类 为 C(; (其 中 j 可 能 与 £ 相 等 ， 也 可 能 不 相等 ) 。 这 样 做 的 结果 是 ， 我 们 
会 造成 某 种 程度 的 损失 ， 记 作 Lx;， 它 可 以 看 成 损失 和 矩阵 (loss matrix) 的 第 k,j 个 元 素 。 例 如 ， 
在 癌症 的 例子 中 ， 我 们 可 能 有 图 1.25 所 示 的 损失 矩阵。 这 个 特别 的 损失 和 矩阵 表明 ， 如 果 我 们 做 出 
了 正确 的 决策 ， 那 么 不 会 造成 损失 。 如 果 健 康 人 被 诊断 为 患 有 癌症 ， 那 么 损失 为 1。 但 是 如 果 一 
个 患 有 癌症 的 病人 被 诊断 为 健康 ， 那 么 损失 为 1000。 

最 优 解 是 使 损失 函数 最 小 的 解 。 但 是 ， 损 失 函 数 依赖 于 真实 的 类 别 ， 这 是 未 知 的。 对 于 一 个 
给 定 的 输入 向 量 x， 我 们 对 于 真实 类 别 的 不 确定 性 通过 联合 概率 分 布 p(x, Ck) 表 示 。 因 此 ， 我 们 
转 而 去 最 小 化 平均 损失 。 平 均 损失 根据 这 个 联合 概率 分 布 计算 ， 定义 为 


EIL] = 33 Lijp(z, Ck) dz (1.80) 


每 一 个 z 可 以 被 独立 地 分 到 决策 区 域 R; 中 。 我 们 的 目标 是 选择 区 域 RR;， 来 最 小 化 期 望 损失 
(1.80) 。 这 表明 ， 对 于 每 个 x， 我 们 要 最 小 化 > Lxjyp(zx,Cx)。 和 之 前 一 样 ， 我 们 可 以 使 用 乘 
积 规则 p(x, Ck) = p(Ck | z)p(z) 来 消除 共同 因子 p(z)。 因 此 ， 最 小 化 期 望 损失 的 决策 规则 是 对 于 
每 个 新 的 z+， 把 它 分 到 能 使 下 式 取得 最 小 值 的 第 j 类 : 


> Lajp(Cr | z) (1.81) 
k 


























一 旦 我 们 知道 了 类 的 后 验 概率 p(Cx | z) 之 后 ， 这 件 事 就 很 容易 做 了 。 


1.5.3 拒绝 选项 


我 们 已 经 看 到 ， 在 发 生 分 类 错误 的 输入 空间 中 ， 后 验 概 率 p(Cx | z) 通 常 远 小 于 1， 或 者 等 价 
地 ,不同 类别 的 联合 分 布 p(x,Cx) 有 着 可 比 的 值 。 这 些 区域 中 ， 类 别 的 归属 相对 不 确定 。 在 某 些 
应 用 中 ， 对 于 这 种 困难 的 情况 ， 避 免 做 出 决策 是 更 合适 的 选择 。 这 样 会 使 得 模型 的 分 类 错 
误 率 降低 。 这 被 称 为 拒绝 选项 (reject option) 。 例 如 ， 在 我 们 假想 的 医疗 例子 中 ， 一 种 合适 
的 做 法 是 ， 使 用 自动 化 的 系统 来 对 那些 几乎 没有 疑问 的 X 光 片 进行 分 类 ， 然 后 把 不 容易 分 类 
的 X 光 片 留 给 人 类 的 专家 。 我 们 可 以 用 这 种 方式 来 达到 这 个 目的 : 引入 一 个 国 值 0， 拒 绝 后 验 概 
率 p(Ck | z) 的 最 大 值 小 于 等 于 0 的 那些 输入 z。 图 1.26 说 明了 一 元 输入 变量 z 的 二 分 类 问题 的 情 
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0.0 人 


ee———————* 
reject region 


图 1.26: 拒绝 选项 的 例子 。 如 果 输 入 Zz 使 得 两 个 后 验 概率 分 布 中 较 大 的 那个 概率 分 布 小 于 或 等 于 某 个 立 
值 ?， 那 么 x 会 被 拒绝 识别 。 


形 。 注 意 ， 令 6 = 1 会 使 所 有 的 样本 都 被 拒绝 ， 而 如 果 有 天 个 类 别 ， 那 么 令 0 < 去 将 会 确保 没有 
样本 被 拒绝 。 因 此 被 拒绝 的 样本 比例 由 2 的 值 控制 。 

我 们 可 以 很 容易 地 把 拒绝 准则 推广 到 最 小 化 期 望 损失 的 情形 。 那 种 情形 下 ， 我 们 已 知 一 个 损 
失 和 矩阵 ， 这 个 矩阵 考虑 了 拒绝 决策 所 带 来 的 损失 。 


1.5.4 推 朵 和 决策 


我 们 已 经 把 分 类 问题 划分 成 了 两 个 阶段 : 推断 (inference) 阶段 和 决策 (decision) 阶段 。 在 
推断 阶段 ， 我 们 使 用 训练 数据 学 习 p(Ci | x) 的 模型 。 在 接 下 来 的 决策 阶段 ， 我 们 使 用 这 些 后 验 
概率 来 进行 最 优 的 分 类 。 另 一 种 可 能 的 方法 是 ， 同 时 解决 两 个 问题 ， 即 简单 地 学 习 一 个 函数 ， 
将 输入 Zz 直接 映射 为 决策 。 这 样 的 函数 被 称 为 判别 函数 (discriminant function) 。 

事实 上 ， 我 们 可 以 区 分 出 三 种 不 同 的 方法 来 解决 决策 问题 ， 这 三 种 方法 都 已 经 在 实际 应 用 问 
题 中 被 使 用 。 这 三 种 方法 按照 复杂 度 降低 的 顺序 给 出 : 

(a) 首先 对 于 每 个 类 别 C;， 独 立地 确定 类 条 件 密度 p(z | Ci)。 这 是 一 个 推断 问题 。 然 后 ， 推 
断 先 验 类 概率 p(Cx)。 之 后 ， 使 用 贝 叶 斯 定理 





p(x | Ck)p(Cx) 


一 1.82 
p(C | 2) = —— (1.82) 
求 出 后 验 类 概率 p(Cx | z)。 和 往常 一 样 ， 贝 叶 斯 定理 的 分 母 可 以 用 分 子 中 出 现 的 项 表示 ， 因 为 
p(x) = > ,p(x | Ck)p(Ck) (1.83) 
k 


等 价 地 ， 我 们 可 以 直接 对 联合 概率 分 布 p(x,Cx) 建 模 ， 然 后 归 一 化 ， 得 到 后 验 概率 。 得 到 后 验 概 
率 之 后 ， 我 们 可 以 使 用 决策 论 来 确定 每 个 新 的 输入 z 的 类 别 。 显 式 地 或 者 隐 式 地 对 输入 以 及 输 
出 进行 建 模 的 方法 被 称 为 生成 式 模型 (generative model) ， 因 为 通过 取样 ， 可 以 用 来 人 工 生成 
出 输入 空间 的 数据 点 。 

(b) 首先 解决 确定 后 验 类 密度 p(Ck | x) 这 一 推断 问题 ， 接 下 来 使 用 决策 论 来 对 新 的 输入 zx 进行 
分 类 。 这 种 直接 对 后 验 概率 建 模 的 方法 被 称 为 判别 式 模型 〈discriminative models) 。 

(©) 找到 一 个 函数 (zx)， 被 称 为 判别 函数 。 这 个 函数 把 每 个 输入 Zz 直接 映射 为 类 别 标签 。 例 
如 ， 在 二 分 类 问题 中 ，f(:) 可 能 是 一 个 二 元 的 数值 ，f = 0 表示 类 别 C1，f = 1 表示 类 别 Cz?。 这 种 
情况 下 ， 概 率 不 起 作用 。 

让 我 们 考虑 一 下 这 三 种 方法 的 相对 优势 。 方 法 (a) 需 要 求解 的 东西 最 多 ， 因 为 它 涉及 到 寻找 
在 Zz 和 Ci 上 的 联合 概率 分 布 。 对 于 许多 应 用 ，z 的 维度 很 高 ， 这 会 导致 我 们 需要 大 量 的 训练 数据 
才能 在 合理 的 精度 下 确定 类 条 件 概 率 密度 。 注 意 ， 先 验 概率 p(Ci) 经 常 能 够 根据 训练 数据 集 里 的 
每 个 类 别 的 数据 点 所 占 的 比例 简单 地 估计 出 来 。 但 是 ， 方 法 (a) 的 一 个 优点 是 ， 它 能 够 通过 公式 
(1.83) 求 出 数据 的 边缘 概率 密度 p(z)。 这 对 于 检测 模型 中 具有 低 概率 的 新 数据 点 很 有 用 ， 对 于 
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p(C1ilz) p(C2|7) 
p(xl|C2) 


class densities 




















图 1.27: 具有 一 元 输入 变量 z 的 两 个 类 别 的 类 条 件 概率 密度 〈 左 图 ) 以 及 对 应 的 后 验 概率 密度 〈 右 图 ) 。 
注意 ， 左 图 中 ， 蓝 色 曲 线 表示 类 条 件 概率 密度 p(x | C1)， 它 的 峰值 对 于 后 验 概率 分 布 没有 影响 。 右 图 中 
的 垂直 绿色 直线 表示 给 出 最 小 误 分 类 率 的 z 的 决策 边界 。 我 们 假设 移 验 概 率 分 布 P(Cl) 和 P(C2) 是 相等 的 。 


这 些 点 ， 模 型 的 预测 准确 率 可 能 会 很 低 。 这 种 技术 被 称 为 离 群 点 检测 (outlier detection) 或 者 异 
常 检 测 (novelty detection) (Bishop, 1994; Tarassenko, 1995) 。 

然而 ， 如 果 我 们 只 想 进 行 分 类 的 决策 ， 那 么 这 种 方法 会 浪费 计算 资源 。 并 且 ， 实 际 上 我 们 只 
是 想 求 出 后 验 概率 p(Cx | z) (可 以 直接 通过 方法 (b) 求 出 ) ， 但 是 为 了 求 出 它 ， 这 种 方法 需要 大 
量 的 数据 来 寻找 联合 概率 p(x,Cx)。 事 实 上 ， 类 条 件 密度 可 能 包含 很 多 对 于 后 验 概率 几乎 没有 影 
响 的 结构 ， 如 图 1.27 所 示 。 关 于 机 器 学 习 中 的 生成 式 方法 和 判别 式 方法 的 相对 优势 ， 以 及 如 何 将 
两 者 结合 ， 有 很 多 研究 成 果 (Jebara, 2004; Lasserre et al., 2006) 。 

一 种 更 简单 的 方法 是 方法 (c)。 这 种 方法 中 ,我们 使 用 训练 数据 来 寻找 将 每 个 直接 映射 为 类 
别 标签 的 判别 函数 (zx)。 这 样 ， 我 们 就 把 推断 阶段 和 决策 阶段 结合 到 一 个 学 习 问 题 中 了 。 在 图 
0 
边界 。 

但 是 ， 使 用 方法 (c)， 我 们 不 在 能 够 接触 到 后 验 概 率 p(Cx | z)。 有 很 多 强烈 的 理由 需要 计算 后 
验 概率 ， 即 使 我 们 接 下 来 要 使 用 后 验 概率 来 进行 决策 。 这 些 理由 包括 : 


。 最 小 化 风险 。 考 虑 这 样 一 个 问题 ， 问 题 中 损失 矩阵 的 元 素 时 时 刻 刻 都 被 修改 〈 例 如 金融 应 
用 中 可 能 出 现 的 情况 ) 。 如 果 我 们 知道 后 验 概率 ， 我 们 只 需要 恰当 地 修改 公式 (1.81) 所 
定义 的 最 小 风险 决策 准则 即 可 。 如 果 我 们 只 有 一 个 判别 准则 ， 那 么 损失 和 矩阵 的 任何 改变 都 
需要 我 们 返回 训练 数据 ， 重 新 解决 分 类 问题 。 


“拒绝 选项 。 如 果 给 定 被 拒绝 的 数据 点 所 占 的 比例 ， 后 验 概率 让 我 们 能 够 确定 最 小 化 误 分 类 
率 的 拒绝 标准 ， 或 者 在 更 一 般 的 情况 下 确定 最 小 化 期 望 损失 的 拒绝 标准 。 


"补偿 类 先 验 概 率 。 重 新 考虑 我 们 的 医疗 X 光 问题 。 假 定 我 们 已 经 从 普通 人 群 中 收集 了 大 量 
的 X 光 片 ， 用 作 训 练 数据 ， 用 来 建立 一 个 自动 诊断 系统 。 由 于 癌症 在 普通 人 群 中 是 很 少见 
的 ， 我 们 可 能 发 现 1000 个 样本 中 只 有 一 个 对 应 癌症 。 如 果 我 们 使 用 这 样 的 数据 集 来 训练 一 
个 模型 ， 由 于 癌症 类 别 所 占 的 比例 很 小 ， 我 们 会 遇 到 很 困难 的 问题 。 例 如 ， 一 个 将 所 有 的 
点 都 判定 为 正常 类 别 的 分 类 器 就 已 经 能 够 达到 99.9% 的 精度 。 避 免 这 种 平凡 解 是 很 困难 
的 。 并 且 ， 即 使 是 一 个 大 的 数据 集 ， 只 有 很 少 的 X 光 片 对 应 着 癌症 ， 因 此 学 习 算 法 不 会 接 
收 到 很 多 这 种 X 光 片 ， 因 此 不 太 可 能 具有 很 好 的 泛 化 性 。 一 个 平衡 的 数据 集 里 ， 我 们 已 经 
从 每 个 类 别 中 选择 了 相等 数量 的 样本 ， 这 让 我 们 能 够 找到 一 个 更 加 准确 的 模型 。 然 而 ,我 
们 之 后 就 必须 补偿 修改 训练 数据 所 造成 的 影响 。 假 设 我 们 已 经 使 用 这 种 修改 后 的 数据 ， 找 
到 了 后 验 概率 的 模型 。 根 据 公 式 (1.82) 的 贝 叶 斯 定理 ， 我 们 看 到 后 验 概 率 正比 于 先 验 概 
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率 ， 而 先 验 概率 可 以 表示 为 每 个 类 别 的 数据 点 所 占 的 比例 。 因 此 我 们 可 以 把 从 人 造 的 平衡 
数据 中 得 到 的 后 验 概率 除 以 数据 集 里 的 类 比例 ， 再 乘 以 我 们 想 要 应 用 模型 的 目标 人 群 中 类 
别 的 比例 即 可 。 最 后 ， 我 们 需要 归 一 化 来 保证 新 的 后 验 概率 之 和 等 于 1。 注 意 ， 如 果 我 们 
直接 学 习 一 个 判别 函数 而 不 确定 后 验 概率 ， 这 个 步骤 就 无 法 进行 。 


“组 合 模型 。 对 于 复杂 的 应 用 来 说 ， 我 们 可 能 希望 把 问题 分 解 成 若干 个 小 的 子 问 题 ， 每 个 子 
问题 都 可 以 通过 一 个 独立 的 模型 解决 。 例 如 ， 在 我 们 假想 的 医疗 诊断 问题 中 ， 我 们 可 能 
来 自 血液 检查 的 数据 ， 以 及 X 光 片 。 我 们 不 把 所 有 的 这 种 同样 类 型 的 信息 集中 到 一 个 巨大 
的 输入 空间 中 ， 而 是 建立 一 个 系统 来 表示 X 光 片 而 男 一 个 系统 来 表示 血液 数据 。 这 样 做 效 
率 更 高 。 只 要 两 个 模型 都 给 出 类 别 的 后 验 概率 ， 我 们 就 能 够 使 用 概率 的 规则 系统 化 地 结合 
输出 。 完 成 这 个 目标 的 一 个 简单 的 方式 是 假设 对 于 每 个 类 别 ，X 光 片 的 输入 的 分 布 ( 记 
作 zz) 和 血液 数据 的 输入 的 分 布 ( 记 作 zB) 是 独立 的 ， 因 此 


p(x1, LB | Cr) = p(TIr | Ch)p(ZB | Cx) (1.84) 


这 是 条 件 独立 (conditional independence) 的 一 个 例子 ， 因 为 当 分 布 以 类 别 Ck 为 条 件 时 满 
足 独立 性 。 同 时 给 出 X 光 片 和 血液 数据 ， 后 验 概率 为 
p(Cx | zZPZB) cpD(ZTZB |Ck)P(CE) 
ce p(xI | Cpjp(ZB | Ck)p(CE) (1.85) 
p(Cx | 21)p(Cr | 2B) 
p(Cx) 
因此 我 们 需要 求 出 类 先 验 概率 p(C)， 这 可 以 通过 估计 每 个 类 别 的 数据 点 所 占 的 比例 很 容 
易 地 得 到 。 之 后 我 们 需要 对 后 验 概 率 归 一 化 ， 使 得 后 验 概率 之 和 等 于 1。 公 式 (1.84) 
的 独立 性 假设 是 朴素 贝 叶 斯 模型 (naive Bayes model) 的 一 个 例子 。 注 意 ， 联 合 边缘 分 
布 p(x7, xB) 在 这 个 模型 下 通常 不 会 被 分 解 。 在 后 续 章 节 中 ， 我 们 会 看 到 如 何不 依赖 公式 
(1.84) 的 独立 性 假设 来 建立 组 合 数 据 的 模型 。 











1.5.5 回归 问题 的 损失 函数 


目前 为 止 ， 我 们 以 分 类 问题 为 例 ， 讨 论 了 决策 论 。 我 们 现在 考虑 回归 问题 ， 例 如 之 前 讨论 过 
的 曲线 拟 合 问 题 。 决 策 阶段 包括 对 于 每 个 输入 x， 选择 一 个 对 于 t 值 的 具体 的 估计 y(z)。 假 设 这 
样 做 之 后 ， 我 们 造成 了 一 个 损失 L(t,y(x))。 平 均 损失 (或 者 说 期 望 损失 ) 就 是 


EIL| = i L(t,y(x))p(z,t) dx dt (1.80) 


回归 问题 中 ， 损 失 函 数 的 一 个 通常 的 选择 是 平方 损失 ， 定 义 为 L(t,y(z)) = {y(z) 一 如 ?。 这 种 情 
况 下 ,期望 损失 函数 可 以 写成 

































































[万 ] ss {y(z) —t}2p(z,t) dx dt (1.87) 
我 们 的 目标 是 选择 y(z) 来 最 小 化 正二。 如 果 我 们 假设 一 个 完全 任意 的 函数 V(z)， 我 们 能 够 形式 
化 地 使 用 变 分 法 求解 : a 
os) =2 {ole) tle) d=0 (1.88) 
求解 y(z) ， 使 用 概率 的 加 和 规则 和 乘积 规则 ， 我 们 得 到 
d 
V(Z) = 上 二 ft | x) dt = Elt | z] (1.89) 


这 是 在 zx 的 条 件 下 t 的 条 件 均值 ， 被 称 为 回归 遂 数 (regression function) 。 结 果 如 图 1.28 所 示 。 
这 个 结果 可 以 扩展 到 多 个 目标 变量 (用 向 量 t) 的 情形 。 这 种 情况 下 ， 最 优 解 是 条 件 均 
值 y (x) = Eilt | zx]。 
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TO 化 


图 1.28: 最 小 化 了 期 望 平方 损失 的 回归 函数 V(z) 由 条 件 概 率 分 布 Ptt | x) 的 均值 给 出 。 





我 们 也 可 以 使 用 一 种 稍微 不 同 的 方式 推导 出 这 个 结果 ， 这 也 将 透露 出 回归 问题 的 本 质 。 已 经 
知道 了 最 优 解 是 条 件 期 望 ， 我 们 可 以 把 平方 项 按照 下 面 的 方式 展开 : 


{y(2) 一 让 = 也 (z) — Elt| 2] + Elt| zx] 一 革 
= {y(2) — Elt | 相关 十 2{y(z) — Elt| 2]}{Elt| 2] 一 颁 
+ {Elt | ze] 一 二 


中 ,为 了 不 让 符号 过 于 复杂 ， 我 们 使 用 Elt | z] 来 表示 Eilt | 2]。 代 入 损失 函数 中 ， 对 t 进 行 积 
， 我 们 看 到 交叉 项 消失 ， 因 而 得 到 下 面 形式 的 损失 函数 


EIL| = [we — Elt | z]}2p(z) dz + af | zjp(z) dz (1.90) 


我 们 寻找 的 函数 y(z) 只 出 现在 第 一 项 中 。 当 y(z) 等 于 Elt | x] 时 第 一 项 取得 最 小 值 ， 这 时 第 一 项 
会 被 消去 。 这 正 是 我 们 之 前 推导 的 结果 ， 表 明 最 优 的 最 小 平方 预测 由 条 件 均值 给 出 。 第 二 项 
是 t 的 分 布 的 方差 ， 在 z* 上 进行 了 平均 。 它 表示 目标 数据 内 在 的 变化 性 ， 可 以 被 看 成 噪声 。 由 于 
它 与 y(z) 无 关 ， 因 此 它 表 示 损 失 函 数 的 不 可 减 小 的 最 小 值 。 

与 分 类 问题 相同 ， 我 们 可 以 确定 合适 的 概率 然后 使 用 这 些 概率 做 出 最 优 的 决策 ， 或 者 我 们 可 
以 建立 直接 决策 的 模型 。 实 际 上 ， 我 们 可 以 区 分 出 三 种 解决 回归 问题 的 方法 ， 按 照 复 杂 度 降 低 
的 顺序 ， 依 次 为 : 

(a) 首先 解决 确定 联合 概率 密度 p(z, 妨 的 推断 间 题 。 之 后 ， 计 算 条 件 概 率 密度 pLt | z)。 最 
后 ， 使 用 公式 〈1.89) 积分 ， 求 出 条 件 均值 。 

(b) 首先 解决 确定 条 件 概率 密度 pt | x) 的 推断 问题 。 之 后 使 用 公式 (1.89) 计算 条 件 均值 。 

(c) 直接 从 训练 数据 中 寻找 一 个 回归 函数 yz)。 

这 三 种 方法 的 相对 优势 和 之 前 所 述 的 分 类 问题 的 情形 很 相似 。 

平方 损失 通 数 不 是 回归 问题 中 损失 遂 数 的 唯一 选择 。 实 际 上 ， 有 些 情况 下， 平方 损失 通 数 会 
导致 非常 差 的 结果 ， 这 时 我 们 就 需要 更 复杂 的 方法 。 这 种 情况 的 一 个 重要 的 例子 就 是 条 件 分 
布 p(t | z) 有 多 个 峰值 ， 这 在 解决 反 演 问题 时 经 常 出 现 。 这 里 我 们 简要 介绍 一 下 平方 损失 函数 的 
一 种 推广 ， 叫 做 闵可夫 斯 基 损 失 函 数 (Minkowski loss) ， 它 的 期 望 为 


= 1 ee (Lo 
当 g = 2 时 ， 这 个 函数 就 变 成 了 平方 损失 函数 的 期 望 。 图 1.29 给 出 了 不 同 g 值 下 ， 地 数 |y 一 引 ? 关 


于 y 一 的 图 像 。 当 q = 2 时 ,下 [Ze] 的 最 小 值 是 条 件 均值 。 当 9 = 1 时 ，E[Ly| 的 最 小 值 是 条 件 中 位 
数 。 当 9 一 0 时 ，E[La] 的 最 小 值 是 条 件 众 数 。 


































































































































































































1.6 信息 论 
从 概率 论 到 决策 论 ， 本 章 中 我 们 讨论 了 一 系列 的 概念 。 这 些 概 念 将 会 组 成 本 书后 续 章节 中 讨 
论 的 基础 。 在 本 章 的 最 后 一 他， 我们 要 介绍 信息 论 领域 的 一 些 概念 。 这 些 概念 对 于 模式 识别 
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图 1.29: 对 于 不 同 的 9 值 ，Ls = |y 一 站 的 图 像 。 


和 机 器 学 习 技 术 的 发 展 也 是 很 有 用 的 。 再 强调 一 次 ， 我 们 只 关注 关键 的 概念 。 关 于 更 加 详 
细 的 讨论 ， 读 者 可 以 参考 其 他 资料 (Viterbi and Omura, 1979; Cover and Thomas, 1991; MacKay, 
2003) 。 

首先 ， 我 们 考虑 一 个 离散 的 随机 变量 z。 当 我 们 观察 到 这 个 变量 的 一 个 具体 值 的 时 候 ， 我 们 
接收 到 了 多 少 信息 呢 ? 信息 量 可 以 被 看 成 在 学 习 z 的 值 的 时 候 的 “惊讶 程度 。 如 果 有 人 告诉 我 们 
一 个 相当 不 可 能 的 时 间 发 生 了 ,我们 收 到 的 信息 要 多 于 我 们 被 告知 某 个 很 可 能 发 生 的 事件 
发 生 时 收 到 的 信息 。 如 果 我 们 知道 某 件 事情 一 定 会 发 生 ， 那 么 我 们 就 不 会 接收 到 信息 。 于 
是 ， 我 们 对 于 信息 内 容 的 度量 将 依赖 于 概率 分 布 p(x)， 因 此 我 们 想 要 寻找 一 个 函数 h(z)， 它 
是 概率 p(z) 的 单调 递增 函数 ， 表 达 了 信息 的 内 容 。j7() 的 形式 可 以 这 样 寻找 : 如 果 我 们 有 两 
个 不 相关 的 事件 z 和 y， 那 么 我 们 观察 到 两 个 事件 同时 发 生 时 获得 的 信息 应 该 等 于 观察 到 事 
件 各 自发 生 时 获得 的 信息 之 和 ， 即 h(x,y) = h(x) 十 h(y)。 两 个 不 相关 事件 是 统计 独立 的 ， 因 
此 p(x,y) = p(X)p(y)。 根 据 这 两 个 关系 ， 很 容易 看 出 h(x) 一 定 与 p(z) 的 对 数 有 关 。 因 此 ， 我们 有 


h(x) = — lo0g2 p(7) (1.92) 


其 中 ， 负 号 确保 了 信息 一 定 是 正 数 或 者 是 零 。 注 意 ， 低 概率 事件 z 对 应 于 高 的 信息 量 。 对 数 的 底 
的 选择 是 任意 的 。 现 在 我 们 将 遵循 信息 论 的 普遍 传统 ， 使 用 2 作为 对 数 的 底 。 在 这 种 情形 下 ， 正 
如 我 们 稍 后 会 看 到 的 那样 ，A(z) 的 单位 是 比特 (bit, binary digit) 。 

现在 假设 一 个 发 送 者 想 传输 一 个 随机 变量 的 值 给 接收 者 。 这 个 过 程 中 ， 他 们 传输 的 平均 信息 
量 通 可 以 通过 求 公 式 (1.92) 关于 概率 分 布 P(z) 的 期 望 得 到 。 这 个 期 望 值 为 


Hlzx| = 一 > p(z) log2 D(Z) (1.93) 








这 个 重要 的 量 被 叫做 随机 变量 z 的 精 (entropy) 。 注 意 ，limy_ yoplogzp = 0， 因 此 只 要 我 们 遇 到 
一 个 zx 使 得 p(x) = 0， 那 么 我 们 就 应 该 令 p(z)logzp(z) = 0。 
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目前 为 止 ， 对 于 公式 〈1.92) 的 信息 的 定义 以 及 公式 〈1.93) 的 灶 的 定义 ， 我 们 已 经 有 了 一 
种 启发 式 的 动机 。 我 们 现在 要 说 明 ， 这 些 定义 确实 有 着 有 用 的 性 质 。 考 虑 一 个 随机 变量 z。 这 个 
随机 变量 有 8 种 可 能 的 状态 ， 每 个 状态 都 是 等 可 能 的 。 为 了 把 z 的 值 传 给 接收 者 ， 我 们 需要 传输 
一 个 3 比特 的 消息 。 注 意 ， 这 个 变量 的 炉 由 下 式 给 出 








1 1 


现在 考虑 一 个 具有 8 种 可 能 状态 {a,b,c,d,e,f,9,h} 的 随机 变量 ， 每 个 状态 各 自 的 概率 
为 (二 ,二 , 直 ,十 , 吉 ; 十 ; 十 ; 十 ) (Cover and Thomas, 1991) 。 这 种 情形 下 的 炳 为 





Hlz| = 5 log» ; log> log» log2 log» = 2 bits 
我 们 看 到 ， 非 均匀 分 布 比 均匀 分 布 的 箭 要 小 。 后 面 当 我 们 根据 无 序 程度 来 讨论 精 的 概念 时 ， 我 
们 会 获得 一 些 更 深刻 的 认识 。 现 在 ， 让 我 们 考虑 如 何 把 变量 状态 的 类 别传 递 给 接收 者 。 与 之 前 
一 样 ， 我 们 可 以 使 用 一 个 3 比特 的 数字 来 完成 这 件 事情 。 然 而 ， 我 们 可 以 利用 非 均匀 分 布 这 个 特 
点 ， 使 用 更 短 的 编码 来 描述 更 可 能 的 事件 ， 使 用 更 长 的 编码 来 描述 不 太 可 能 的 事件 。 我 们 希望 
这 样 做 能 够 得 到 一 个 更 短 的 平均 编码 长 度 。 我 们 可 以 使 用 下 面 的 编码 串 : 0、10、110、1110、 
111100、111101、111110、111111 来 表示 状态 {a,2, cd e, 访 9 由 。 传 输 的 编码 的 平均 长 度 就 是 











1 1 1 
average code length = 5 x14 了 x 214 8 本 X4 十 4X EA x6=2bits 
这 个 值 又 一 次 与 随机 变量 的 相 等 。 注 意 ， 我 们 不 能 使 用 更 短 的 编码 串 ， 因 为 必须 能 够 从 多 个 
这 种 字符 串 的 拼接 中 分 割 出 各 个 独立 的 字符 串 。 例 如 ，11001110 唯 一 地 编码 了 状态 序列 c, a, d。 

和 最 短 编码 长 度 的 这 种 关系 是 一 种 普遍 的 情形 。 无 噪声 编码 定理 (noiseless coding 
theorem) (Shannon, 1948) 表明 ， 炉 是 传输 一 个 随机 变量 状态 值 所 需 的 比特 位 的 下 界 。 

现在 开始 ， 我 们 会 把 箭 的 定义 中 的 对 数 变 成 自然 对 数 ， 因 为 这 样 做 会 使 得 科 的 概念 与 本 书后 
续 章 节 中 的 思想 结合 起 来 比较 方便 。 这 种 情况 下 ， 灼 度量 的 单位 是 nat， 而 不 是 bit。 两 者 的 差 
别 是 一 个 jn 2 的 因子 。 

我 们 已 经 通过 具体 化 随机 变量 的 状态 所 需 的 平均 信息 量 介绍 了 和 的 概念 。 事 实 上 ， 业 的 概念 
最 早起 源 于 物理 学 ， 是 在 热力 学 平衡 的 背景 中 介绍 的 。 后 来 ， 入 成 为 描述 统计 力学 中 的 无 序 程 
度 的 度量 。 我 们 可 以 这 样 理解 们 的 这 种 含义 : 考虑 一 个 集合 ， 包 含 N 个 完全 相同 的 物体 ， 这 些 
物体 要 被 分 到 若干 个 箱子 中 ， 使 得 第 i 个 箱子 中 有 ni 个 物体 。 考 虑 把 物体 分 配 到 箱子 中 的 不 同方 
案 的 数量 。 有 NN 种 方式 选择 第 一 个 物体 ， 有 (N 一 1) 种 方式 选择 第 二 个 物体 ， 以 此 类 推 。 因 此 总 
共有 NN! 种 方式 把 NN 个 物体 分 配 到 箱子 中 ， 其 中 和 N! 表 示 乘 积 N x (N 一 1) x … x 2 x1。 然 而 , 我 
们 不 想 区 分 每 个 箱子 内 部 物体 的 重新 排列 。 在 第 i 个 箱子 中 ， 有 ni! 种 方式 对 物体 重新 排序 ， 因 此 
把 NN 个 物体 分 配 到 箱子 中 的 总 方案 数量 为 























W = i (1.94) 
这 被 称 为 乘 数 (multiplicity) 。 炉 被 定义 为 通过 适当 的 参数 放 缩 后 的 对 数 乘 数 ， 即 
1 1 1 
人 (1.95) 
我 们 现在 考虑 极限 N 一 co， 并 且 保 持 比 值 芝 固定 ， 使 用 Stirling 的 估计 
InNI~NInN—N (1.90) 
可 以 得 到 ey Rs 
Cs yy (5 ) 站 2 mn 0 
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图 1.30: 两 个 概率 分 布 在 30 个 箱子 上 的 直方 图 ， 表 明 值 越 大 ， 互 越 宽 。 最 大 的 业 值 产生 于 均匀 分 布 ， 此 
时 的 业 值 为 瑟 = 一 ln(1/30) = 3.40。 





推导 时 我 们 使 用 了 22 mi = NN。 这 里 ，pi = limN_;owo (办 ) 是 一 个 物体 被 分 配 到 第 i 个 箱子 的 概率 。 
使 用 物理 学 的 术语 ， 箱 子 中 物体 的 具体 分 配方 案 被 称 为 微观 状态 (microstate) ， 整 体 的 占领 
数 的 分 布 ， 表 示 为 比值 党 ， 被 称 为 宏观 状态 (macrostate) 。 乘 数 W 也 被 称 为 宏观 状态 的 权重 
(weight) 。 

我 们 可 以 把 箱子 表述 成 离散 随机 变量 X 的 状态 zi ， 其 中 p(X = zi) = pi。 这 样 ， 随 机 变 


量 X 的 炉 就 是 
Hlp] = — > p(xi) In p(xi) (1.98) 


如 果 分 布 p(zi) 在 几 个 值 周 围 有 尖锐 的 峰值 ， 精 就 会 相对 较 低 。 如 果 分 布 pLzi) 相 对 平衡 地 跨 过 许 
多 值 ， 那 么 业 就 会 相对 较 高 ， 如 图 1.30 所 示 。 由 于 0 < p; < 1， 因 此 坑 是 非 负 的 。 当 p; = 1 且 所 
有 其 他 的 pyzi = 0 时 ， 灶 取 得 最 小 值 0。 在 概率 归 一 化 的 限制 下 ， 使 用 拉 格 朗 日 乘 数 法 可 以 找到 
焙 的 最 大 值 。 因 此 ， 我 们 要 最 大 化 


吾 = 一 》p(zi)lnp(zi) 十 入 (Ze 四 (1.99) 
可 以 证 明 ， 当 所 有 的 p(xi) 都 相等 ， 且 值 为 p(xi) = 志 时 ， 和 取 得 最 大 值 。 其 中 ，M 是 状态 zx 的 
总 数 。 此 时 对 应 的 箭 值 为 瑟 = jn M。 这 个 结果 也 可 以 通过 Jensen 不 等 式 推导 出 来 ( 稍 后 会 简短 
讨论 一 下 ) 。 为 了 证 明 驻 点 确实 是 最 大 值 ， 我 们 可 以 求 精 的 二 阶 导 数 ， 即 
< i (1.100) 
Op(Ti)Op(z;) "pi . 





其 中 ;是 单位 矩阵 的 元 素 。 
我 们 可 以 把 箭 的 定义 扩展 到 连续 变量 z 的 概率 分 布 pz)， 方 法 如 下 。 首 先 把 z 切 分 成 宽度 
为 A 的 箱子 。 然 后 假设 p(zZ) 是 连续 的 。 均 值 定理 (mean value theorem) 【Weisstein, 1999) 告诉 
我 们 ， 对 于 每 个 这 样 的 箱子 ,一定 存 在 一 个 值 x; 使 得 
(HTDA 
/ p(T) dz = p(Ti)A (1.101) 
iA 
我 们 现在 可 以 这 样 量化 连续 变量 z: 只 要 zx 落 在 第 i 个 箱子 中 ， 我 们 就 把 zx 赋值 为 xz;。 因 此 观察 到 
值 zi; 的 概率 为 p(xi) 人 和。 这 就 变 成 了 离散 的 分 布 ， 这 种 情形 下 坑 的 形式 为 
HA=— > p(zi)Aln(p(zi)A) 二 一 D>_p(zi)A lInp(zi)— ln 人 A 人 (1.102) 


2 


42 
wwaibbt.com DODODDODODOD 


推导 时 我 们 使 用 也; p(xi) 人 A = 1， 这 可 以 由 公式 (1.101) 得 出 。 我 们 现在 省 略 公式 (1.102) 右 
侧 的 第 二 项 -InA， 然 后 考虑 极限 A -一 0。 在 这 种 极限 下 ， 公 式 (1.102) 右 侧 的 第 一 项 就 变 成 
了 p(z)Inp(z) 的 积分 ， 因 此 


lim {-Ereanre) = - /oa Inp(z) dz (1.103) 


和 A 一 0 
其 中 ， 右 侧 的 量 被 称 为 微分 烂 (differential entropy) 。 我 们 看 到 ， 灶 的 离散 形式 与 连续 形式 的 
差 是 ln 和， 这 在 极限 A 一 0 的 情形 下 发 散 。 这 反映 出 一 个 事实 : 具体 化 一 个 连续 变量 需要 大 量 
的 比特 位 。 对 于 定义 在 多 元 连续 变量 (联合 起 来 记 作 向 量 z) 上 的 概率 密度 ， 微 分 粹 为 


五 [z] = 一 f 16) ln p(Z) dz (1.104) 











在 离散 分 布 的 情况 下 ， 我 们 看 到 最 大 粹 对 应 于 变量 的 所 有 可 能 状态 的 均匀 分 布 。 现 在 让 我 们 
考虑 连续 变量 的 最 大 粹 。 为 了 让 这 个 最 大 值 有 一 个 合理 的 定义 ， 有 必要 限制 p(x) 的 一 阶 矩 和 二 
阶 矩 ， 同 时 还 要 保留 归 一 化 的 限制 。 因 此 我 们 最 大 化 微分 精 的 时 候 要 遵循 下 面 三 个 限制 





广 padz=1 (1.105) 
人 2ZD(Z) dz 三 内 (1.100) 
{_ wp) d= (1.107) 


带 有 限制 条 件 的 最 大 化 问题 可 以 使 用 拉 格 朗 日 乘 数 法 求解 ， 因 此 我 们 要 最 优化 下 面 的 关 


于 p(z) 的 函数 
=/ pmne) det (f pe) 1) 


ta(f spo) tr (f enp) an- 0) 


使 用 变 分 法 ， 令 这 个 函数 的 导数 等 于 零 ， 我 们 有 








D(Z) = exp {1 二 和 | 和 X20 十 M3(7 1 (1.108) 
将 这 个 结果 代入 三 个 限制 方程 中 ， 即 可 求 出 拉 格 朗 日 乘 数 ， 最 终 的 结果 为 
_ 1 (z — pp) 
0 ap{ } (1.109) 











因此 最 大 化 微分 灶 的 分 布 是 高 斯 分 布 。 注 意 ， 在 最 大 化 灼 时 候 ， 我 们 没有 限制 概率 分 布 非 
负 。 但 是 ， 由 于 求 出 的 分 布 确实 是 非 负 的 ， 我 们 可 以 得 出 结论 : 这 种 限制 是 不 必要 的 。 
如 果 我 们 求 高 斯 分 布 的 微分 炉 ， 我 们 会 得 到 


Hlz] = 3 {1+ In(2ro’)} (1.110) 


因此 我 们 看 到 坑 随 着 分 布 宽 度 ( 即 o2) 的 增加 而 增加 。 这 个 结果 也 表明 ， 与 离散 箭 不 同 ， 微 分 
粹 可 以 为 负 ， 因 为 对 于 公式 (1.110) ， 当 o? < 吉 : 时 ,H(z) < 0。 
假设 我 们 有 一 个 联合 概率 分 布 p(x,y)。 我 们 从 这 个 概率 分 布 中 抽取 了 一 对 zx 和 y。 如 果 z 的 值 
已 知 ， 那 么 需要 确定 对 应 的 y 值 所 需 的 附加 的 信息 就 是 一 lnp(y | z)。 因 此 ， 用 来 确定 y 值 的 平均 
附加 信息 可 以 写成 
Hy | a= /vw) inply | 0) dyde (1.111) 
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图 1.31: 凸 函 数 帮 z) 的 每 条 弱 〈 蓝 色 表 示 ) 位 于 函数 上 或 函数 上 方 ， 函 数 用 红色 曲线 表示 。 


这 被 称 为 给 定 z 的 情况 下 ，y 的 条 件 炉 。 使 用 乘积 规则 ， 很 容易 看 出 ， 条 件 粹 满足 下 面 的 关系 
Hlz,y = Hly| zx] + HI2] (1.112) 


其 中 ， 五 [x,y] 是 p(x,y) 的 微分 炉 ， 五 [x] 是 边缘 分 布 p(x) 的 微分 炉 。 因 此 ， 描 述 z 和 vy 所 需 的 信息 
是 描述 x 自己 所 需 的 信息 ， 加 上 给 定 zx 的 情况 下 具体 化 y 所 需 的 额外 信息 。 


1.6.1 相对 炉 和 互信 息 


本 节目 前 为 止 ， 我 们 已 经 介绍 了 信息 论 的 许多 概念 ， 包 括 入 的 关键 思想 。 我 们 现在 开始 把 这 
些 思 想 关联 到 模式 识别 的 问题 中 。 考 虑 某 个 未 知 的 分 布 plz) ， 假 定 我 们 已 经 使 用 一 个 近似 的 分 
布 d(z) 对 它 进 行 了 建 模 。 如 果 我 们 使 用 qtz) 来 建立 一 个 编码 体系 ， 用 来 把 z 的 值 传 给 接收 者 ， 那 
么 ， 由 于 我 们 使 用 了 qa(z) 而 不 是 真实 分 布 p(x)， 因 此 在 具体 化 x 的 值 ( 假 定 我 们 选择 了 一 个 高 效 
的 编码 系统 ) 时 ， 我 们 需要 一 些 附加 的 信息 。 我 们 需要 的 平均 的 附加 信息 量 (单位 是 nat) 为 


Ko19=- /me dz-(- /oemnpa da] 


Jen) 


这 被 称 为 分 布 p(z) 和 分 布 q(z) 之 间 的 相对 炉 (relative entropy) 或 者 Kullback-Leibler 散 度 
(Kullback-Leibler divergence) ， 或 者 KL 散 度 (Kullback and Leibler 1951) 。 注 意 这 不 是 一 个 
对 称 量 ， 即 KL(p || gq) 去 KL(q | 2)。 

我 们 现在 要 证 明 ，Kullback-Leibler 散 度 满足 KL(p || gq) > 0， 并 且 当 且 仅 当 p(z) = g(x) 时 等 号 
成 立 。 为 了 证 明 这 一 点 ,我 们 首先 介绍 凸 函数 (convex function) 的 概念 。 如 果 一 个 函数 具有 如 
下 性 质 : 每 条 弦 都 位 于 函数 图 像 或 其 上 方 (如 图 1.31 所 示 ) ， 那 么 我 们 说 这 个 函数 是 上 屿 函数。 位 
于 zx 二 a 到 zx = b 之 间 的 任何 一 个 x 值 都 可 以 写成 Ma 十 (1 一 入 )b 的 形式 ， 其 中 0 < 入 < 1。 蓄 上 的 对 
0 十 (1 一 入 f(5)， 通 数 的 对 应 值 为 1( 和 Xa 十 (1 一 入 )b)。 这 样 ， 凸 函数 的 性 质 就 可 


(1.113) 











fat+ (1— Nb) < Aa) + (1— Nf) (1.114) 


这 等 价 于 要 求 函 数 的 二 阶 导 数 处 处 为 正 。 凸 函数 的 例子 有 zlnx(z > 0) 和 x*。 如 果 等 号 内 
在 和 = 0 和 和 = 1 处 取得 ， 我 们 就 说 这 个 函数 是 严格 凸 函数 (strictly convex function) 。 如 果 一 
个 函数 具有 相反 的 性 质 ， 即 每 条 弱 都 位 于 函数 图 像 或 其 下 方 ， 那 么 这 个 函数 被 称 为 凹 函数 
(concave function) 。 对 应 地 ， 也 有 严格 凹 函 数 (strictly concave function) 的 定义 。 如 果 f(zx) 是 
凸 函 数 ， 那 么 -./z) 就 是 止 函 数 。 

使 用 归纳 法 ， 我 们 可 以 根据 公式 (1.114) 证 明 凸 函数 所 z) 满 足 


M M 
f (> 中 < > Mf (xi) (1.115) 
=1 2 
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其 中 ， 对 于 任意 点 集 {zi}， 都 有 Xi > 0 且 > AN = 1。 公式 (1.115) 的 结果 被 称 为 Jensen 不 等 
式 (Jensen's inequality) 。 如 果 我 们 把 Xi 看 成 取 值 为 {zi} 的 离散 变量 z 的 概率 分 布 ， 那 么 公式 
(1.115) 就 可 以 写成 

















f(E[zx]) < E[f (2)] (1.110) 
其 中 ,，E[:] 表 示 期 望 。 对 于 连续 变量 ，Jensen 不 等 式 的 形式 为 


a ZD(Z )dz)] < ea (1.117) 


我 们 把 公式 (1.117) 形式 的 Jensen 不 等 式 应 用 于 公式 (1.113) 给 出 的 Kullback-Leibler 散 度 ， 


可 得 
KL(p || 9) = - /aa In {加 | dz > -mn /ra dz 二 0 (1.118) 
推导 过 程 中 ,我 们 使 用 了 一 lnz 是 凸 函数 的 事实 ， 以 及 归 一 化 条 件 [ g(x) dz = 1。 实 际 
上 ， 一 lnx 是 严格 凸 函 数 ， 因 此 只 有 g(x) = p(X) 对 于 所 有 zz 都 成 立时 ， 等 号 才 成 立 。 因 此 我 们 可 
以 把 Kullback-Leibler 散 度 看 做 两 个 分 布 p(x) 和 g(x) 之 间 不 相似 程度 的 度量 。 

我 们 看 到 ， 在 数据 压缩 和 密度 估计 ( 即 对 未 知 概率 分 布 建 模 ) 之 间 有 一 种 隐 含 的 关系 ， 因 为 
当 我 们 知道 真实 的 概率 分 布 之 后 ， 我 们 可 以 给 出 最 有 效 的 压缩 。 如 果 我 们 使 用 了 不 同 于 真实 分 
布 的 概率 分 布 ， 那 么 我 们 一 定 会 损失 编码 效率 ， 并 且 在 传输 时 增加 的 平均 额外 信息 量 至 少 等 于 
两 个 分 布 之 间 的 Kullback-Leibler 散 度 。 

假设 数据 通过 未 知 分 布 p(z) 生 成 ， 我们 想 要 对 p(z) 建 模 。 我 们 可 以 试 着 使 用 一 些 参数 分 

布 q(z | 9) 来 近似 这 个 分 布 。d(z | 9) 由 可 调节 的 参数 9 控制 (例如 一 个 多 元 高 斯 分 布 ) 。 一 种 确 
定 9 的 方式 是 最 小 化 p(xX) 和 g(x | 09) 之 间 关 于 0 的 Kullback-Leibler 散 度 。 我 们 不 能 直接 这 么 做 ， | 
为 我 们 不 知道 p(z)。 但 是 ， 假 设 我 们 已 经 观察 到 了 服从 分 布 z(z) 的 有 限 数量 的 训练 点 zw， 其 
中 nm = 1,...,N。 那 么 ， 关 于 p(x) 的 期 望 就 可 以 通过 这 些 点 的 有 限 加 和 ， 使 用 公式 (1.35) 来 近 
似 ， 即 




















KL(p | 9) ~ 二 人- In g(xn | 0) + lnp(zn)} (1.119) 
公式 (1.119) 右 侧 的 第 二 项 与 6 无 关 ， 第 一 项 是 使 用 训练 集 估 计 的 分 布 g(z | 0) 下 的 9 的 负 对 数 
似 然 函 数 。 因 此 我 们 看 到 ， 最 小 化 Kullback- Leibler 散 度 等 价 于 最 大 化 似 然 函数 。 
现在 考虑 由 p(x,y) 给 出 的 两 个 变量 z 和 y 组 成 的 数据 集 。 如 果 变 量 的 集合 是 独立 的 ， 那 么 他 
们 的 联合 分 布 可 以 分 解 为 边缘 分 布 的 乘积 p(x,y) = p(x)p(y)。 如 果 变 量 不 是 独立 的 ， 那么 我 们 
可 以 通过 考察 联合 概率 分 布 与 边缘 概率 分 布 乘积 之 间 的 Kullback-Leibler 散 度 来 判断 它们 是 否 ` 接 
近 " 于 相互 独立 。 此 时 ，Kullback-Leibler 散 度 为 


Tlz,y] = KL(p(z, y) | p(x)p(Y)) 


fren (en ) eon - 


这 被 称 为 变量 z 和 变量 之 间 的 互信 息 (mutual information) 。 根 据 Kullback-Leibler 散 度 的 性 
质 ， 我 们 看 到 7T[z,y] > 0， 当 且 仅 当 z 和 2 相互 独立 时 等 号 成 立 。 使 用 概率 的 加 和 规则 和 乘积 规 
则 ， 我们 看 到 互信 息 和 条 件 炉 之 间 的 关系 为 


Tlz,y| = Hlz] ~ Hlz |y] = Hly] ~ Hly | 2] (1.121) 
因此 我 们 可 以 把 互信 息 看 成 由 于 知道 y 值 而 造成 的 z 的 不 确定 性 的 减 小 〈 反 之 亦 然 ) 。 从 贝 叶 斯 


的 观点 来 看 ， 我 们 可 以 把 pz(z) 看 成 z 的 先 验 概率 分 布 ， 把 z(z | 9) 看 成 我 们 观察 到 新 数据 y 之 后 
的 后 验 概率 分 布 。 因 此 互信 息 表 示 一 个 新 的 观测 y 造 成 的 z 的 不 确定 性 的 减 小 。 
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1.7 练习 


(1.1) (*) 考虑 公式 (1.2) 给 出 的 平方 和 误差 函数 ， 其 中 函数 y(z,w) 由 公式 (1.1) 给 出 。 
证 明 最 小 化 误差 函数 的 系数 凤 = {wi} 由 下 列 线性 方程 的 集合 给 出 


M 
Se A (1.122) 
7=0 
其 中 
a (1.123) 
n=1 n=1 


这 里 ，?i 7 表示 元 素 的 下 标 ， 而 (z)* 表 示 z 的 ?次 宕 。 

(2) (*) 写 下 能 够 使 由 公式 (1.4) 给 出 的 正则 化 的 平方 和 误差 函数 取得 最 小 值 的 系 
数 由 应 该 满足 的 与 公式 〈1.122) 类 似 的 一 组 线性 方程 。 

(13) (**) 假设 我 们 有 三 个 彩色 的 盒子 : 7 (红色 ) 、5 〈 蓝 色 ) 、9 (绿色 ) 。 盒 子 r" 里 有 
3 个 苹果 ，14 个 橘子 ，3 个 酸 橙 ; 盒子 p 里 有 1 个 苹果 ，1 个 橘子 ，0 个 酸 橙 ; 盒子 9 里 有 3 个 苹果 ，3 
个 橘子 和 4 个 酸 栖 。 如 果 盒 子 随机 被 选中 的 概率 为 p(r) = 0.2，P(b) = 0.2，P(9) = 0.6。 选 择 一 个 
水 果 从 盒子 中 拿 走 〈 盒 子 中 选择 任何 水 果 的 概率 都 相同 ) ， 那 么 选择 苹果 的 概率 是 多 少 ? 如果 
我 们 观察 到 选择 的 水 果实 际 上 是 橘子 ， 那 么 它 来 自 绿色 盒子 的 概率 是 多 少 

(1.4) ”CY*) 考虑 一 个 定义 在 连续 变量 z 上 的 概率 密度 pz(z)， 假 设 我 们 使 用 rz = 9(y) 做 了 一 
个 非 线性 变量 变换 ， 从 而 概率 密度 变换 由 公式 (1.27) 给 出 。 通 过 对 公式 (1.27) 取 微 分 ， 请 证 
明 ， 由 于 Jacobian 因 子 的 原因 ，9 的 概率 密度 最 大 的 位 置 y 与 x 的 概率 密度 最 大 的 位 置 ? 的 关系 通 
常 不 是 简单 的 函数 关系 2 = g( 四 。 这 说 明 概率 密度 (与 简单 的 函数 不 同 ) 的 最 大 值 取决 于 变量 
的 选择 。 请 证 明 ， 在 线性 变换 的 情况 下 ， 最 大 值 位 置 的 变换 方式 与 变量 本 身 的 变换 方式 相同 。 

(1.5) (*) 使 用 定义 (1.38) 证 明 var[f(z)| 满 足 公式 (1.39) 。 

(1.6) (*) 请 证 明 ， 如 果 两 个 变量 和 y 是 独立 的 ， 那么 它们 的 协 方差 为 零 。 

(7) CGC%*) 在 本 练习 中 ， 我 们 证 明 公 式 (1.48) 给 出 的 一 元 高 斯 分 布 的 归 一 化 条 件 。 为 了 
证 明 这 一 点 ， 我 们 考虑 下 面 的 积分 














I = exp (- 志 = dz (1.124) 
这 个 积分 可 以 这 样 计算 : 首先 将 它 的 平方 写成 下 面 的 形式 
2 Be 1 » 1 2 
了 要 exp (~ 一 pp ) dz dy (1:123) 


现在 使 用 笛 卡 尔 坐 标 (z,y) 到 极 坐 标 (7,9) 的 坐标 变换 ， 然 后 兰 换 uw = r*。 请 证 明 ， 通 过 对 9 和 4 积 
分 ， 然 后 两 边 取 平方 根 ， 我 们 可 以 得 到 


T= (2ro2)3 (1.120) 
最 后 ， 使 用 这 个 结果 ， 证 明 高 斯 分 布 N(z | 上 c2) 是 归 一 化 的 。 


(1.8) ”(*) 通过 使 用 变量 替换 ， 证 明 由 公式 (1.46) 给 出 的 一 元 高 斯 分 布 满 足 公式 
(1.49) 。 接 下 来 ， 通 过 对 下 面 的 归 一 化 条 件 


Ws N(z |1,0) dr=1 (1.127) 
两 侧 关于 c? 求 微分 ， 证 明 高 斯 分 布 满足 公式 (1.50) 。 最 后 ， 证 明 公 式 (1.51) 成 立 。 


(19) 〈#*) 证 明 由 公式 (1.46) 给 出 的 高 斯 分 布 的 众 数 〈 即 最 大 值 ) 为 4K。 类 似 地 ， 证 明 由 
公式 〈1.52) 给 出 的 多 元 高 斯 分 布 的 众 数 为 1。 
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(1.10) (*) 假设 两 个 变量 x 和 z 是 统计 独立 的 。 证 明 它们 的 和 的 均值 和 方差 满足 


Elz + z= Elz| 十 严 [z>] (1.128) 
































var|z 十 2] 二 var|z| 十 vat[z| (1.129) 
(1.11) (*) 通过 令 对 数 似 然 函 数 (1.54) 关于 J 和 o* 的 导数 等 于 零 ， 证 明 公式 (1.55) 和 公 
式 (1.56) 。 
(1.12) (#*) 使 用 公式 〈1.49) 和 公式 (1.50) 的 结果 ,证 明 














Bznzm] = 12 + Inmo? (1.130) 
其 中 xz 和 zm 表示 从 均值 为 1 方差 为 o2 的 高 斯 分 布 中 采样 的 数据 点 。 当 n = m 时 ，Inm = 1， 否 


则 Jim = 0。 从 而 证 明了 公式 (1.57) 和 公式 (1.58) 的 结果 。 
(113) (*) 假设 高 斯 分 布 的 方差 由 公式 (1.56) 进行 估计 ， 但 是 估计 时 将 均值 的 最 大 似 然 
估计 Jr 替换 为 真实 的 均值 4。 证 明 ， 此 时 对 于 方差 的 估计 的 期 望 等 于 真实 的 方差 。 
人 其 忠和 9 分 
别 是 对 称 和 矩阵 和 反对 称 和 矩阵 ， 即 对 于 所 有 的 讳 1j 都 有 us = 8 和 ug 二 -4。 现 在 考虑 D 维 空 
间 高 阶 多 项 式 中 的 二 阶 项 ， 由 下 式 给 出 


D DD 
ey (1.131) 


i=1 j=1 
证 明 
D DD D DD 
2 00501071 = 2 Win 4.132) 
i=1 j=1 i=1 j=1 
从 而 来 自 反对 称 矩 阵 的 贡献 消失 了 。 于 是 ,我 们 看 到 ， 不 失 一 般 性 ， 系 数 wij 的 矩阵 可 以 选择 成 
对 称 的 ， 并 且 这 个 矩阵 中 并 非 所 有 万 ?个 元 素 都 可 以 独立 选取 。 证 明 ， 在 矩阵 中 ， 独 立 参数 


的 个 数 为 2 
(145) “Cee9) 在 这 个 练习 和 下 一 个 练习 中 ， 我 们 研究 多 项 式 函 数 的 独立 参数 的 数量 与 多 项 
式 阶 数 M 以 及 输入 空间 维度 刀 之 间 的 关系 。 首 先 ， 我 们 写 下 万 维 空间 多 项 式 的 M 阶 项 ， 形 式 为 


D D D 
2 2 So > Wili2awim Ti dio Vim (1.133) 


1 
系数 wii iv 由 D*Y 个 元 素 组 成 ,但 是 独立 参数 的 数量 远 小 于 此 ， 因 为 因子 zxi,zxi。:… ziwy 有 很 多 
互 换 对 称 性 。 首 先 证 明 系 数 的 宛 余 性 可 以 通过 把 MM 阶 项 写成 下 面 的 形式 的 方法 消除 。 


iM—1 


D 1 
> 2 3 > Wiia-iM Ti Vio ay (1.134) 


i=lio=1l im=l 


注意 ， 忆 系数 和 ww 系数 之 间 的 关系 不 需要 显 式 表示 。 使 用 这 个 结果 证 明 ，M 阶 项 的 独立 参数 的 数 
量 n(D, M) 满 足下 面 的 递归 关系 





D 
n(D, M) = > n(i,M— 1) (1.135) 


接 下 来 ， 使 用 归纳 法 证 明 下 面 的 结果 成 立 


S ee (D4+M=1 


GNM Di 9 





2 一 工 
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可 以 这 样 证 明 : 首先 证 明 D = 1 的 情况 下 ， 对 于 任意 的 M ， 这 个 结果 成 立 。 证 明 的 过 程 中 会 使 
用 0! = 1。 然 后 假设 这 个 结论 对 于 DD 维 成 立 ， 证 明 它 对 于 D 十 1 维 也 成 立即 可 。 最 后 ， 使 用 之 前 
的 两 个 结果 ， 以 及 数学 归纳 法 ,证 明 


(D+M-1)! 
万 二 TU 


可 以 这 样 证 明 : 首先 证 明 这 个 结果 对 于 M = 2 且 任意 的 刀 > 1 成 立 ， 这 可 以 通过 对 比 练习 1.14 的 
结果 得 出 。 然 后 使 用 公式 (1.135) 和 公式 (1.136) ， 证 明 ， 如 果 结 果 对 于 M 一 1 阶 成 立 ， 那 么 
它 对 于 M 阶 也 成 立 。 

(116) Ge) 在 练习 1.15 中 ， 我 们 证 明了 D 维 多 项 式 M 阶 项 的 独立 参数 的 个 数 满足 公式 
(1.135) 给 出 的 关系 。 我 们 现在 寻找 阶 数 小 于 等 于 MM 阶 的 所 有 项 的 独立 参数 的 总 数 N(D, M)。 
首先 ,证 明 N(D, M) 满 足 


n(D, M) = (1.137) 





M 
N(D, M) = >》 n(D, M) (1.138) 

m=0 
其 中 n(D,m) 是 m 阶 项 的 独立 参数 的 数量 。 现 在 ,使 用 公式 (1.137) 的 结果 ， 以 及 数学 归纳 法 ， 
证 明 
(D+ M)! 
DIM! 
可 以 这 样 证 明 : 首先 证 明 结果 对 于 M = 0 以 及 任意 的 D > 1 成 立 ， 然 后 假设 它 对 于 MM 阶 成 立 ， 
证 明 它 对 于 MM + 1 阶 也 成 立即 可 。 最 后 ， 使 用 下 面 的 Stirling 近 似 


Te (1.140) 


这 个 近似 关系 对 于 大 的 mr" 成立。 证 明 ， 对 于 刀 六 M，N(D,M) 的 增长 方式 类 似 于 DM， 对 
于 M 沁 D， 它 的 增长 方式 类 似 于 M?。 考 虑 DD 维 的 立方 (M = 3) 多 项 式 ， 计 算 下 面 两 种 情形 
的 独立 参数 的 总 数 : (1) D = 10 和 (2) D = 100， 这 对 应 于 典型 的 小 规模 和 中 规模 的 机 器 学 
习 应 用 问题 。 

(1.17) ”GY*) Gamma 国 数 的 定义 为 


N(D, M) = (1.139) 


T(z) =/ ur le du (1.141) 
0 


使 用 分 部 积分 法 ， 证 明 T(z 十 1) = zxT(z)。 并 且 证 明 , T(1)=1， 此 当 x 为 整数 
时 , T(z 二 +1)= zl!。 
(1.18) GY*) 我 们 可 以 使 用 公式 (1.126) 的 结果 来 推导 DD 为 空间 中 单位 半径 的 球体 的 表面 
积 Sp 和 体积 Vp。 为 了 完成 这 一 点 ， 考 虑 下 面 的 结果 。 这 个 结果 是 通过 从 笛 卡尔 坐标 系 到 极 坐 标 
系 的 坐标 变换 的 方式 得 到 的 。 
D OO O00 
-2 dy;—8 -rrD-1 qd 1.142 
I[/ 。 a »/ si r ( ) 


= 


使 用 Gamma 函 数 的 定义 (1.141) 以 及 公式 (1.126) ， 计 算 方 程 的 两 人 出， 从 而 证 明 


D 
2 看 2 


Sp = FD) (1.143) 
接 下 来 ， 通 过 对 半径 从 0 到 1 进行 积分 ， 证明 DD 维 单位 球体 的 体积 关 
-= 党 (1.144) 


最 后 ， 使 用 结果 T(1) = 1 和 TG@3) = 次 ， 证 明 对 于 D = 2 和 D = 3 的 情形 ， 公 式 (1.143) 和 公式 
(1.144) 就 是 通常 的 结果 。 
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(119) (**) 考虑 D 维 空间 的 一 个 半径 为 a 的 球体 和 一 个 同心 的 边 长 为 24 的 超 立 方 体 ,球面 
与 超 立方 体 的 每 个 面 的 中 心 接触 。 通 过 使 用 练习 1.18 的 结果 ， 证 明 球 与 超 立 方 体 的 体积 比 为 
球 的 体积 A 


超 立方 体 的 体积 ”D2D-1T( 允 ) (1.145) 


接 下 来 使 用 下 面 形式 的 Stirling 公 式 
T(z+1) ~ (2n)3e-?rr+t (1.140) 


对 于 zx > 1 的 情况 成 立 。 证 明 ， 对 于 D 一 co， 比值 (1.145) 趋 于 零 。 并 且 证 明 ， 超 立方 体 从 中 
心 到 某 个 角 的 距离 与 从 中 心 到 某 条 边 的 垂直 距离 的 比值 为 YD， 从 而 对 于 D 一 co， 这 个 比值 也 
趋 于 oo。 从 这 些 结果 中 ， 我 们 可 以 看 到 ， 在 高 维 空间 中 ， 立 方 体 的 大 部 分 体积 集中 在 数量 众多 
的 角 上 ， 这 些 角 本 身 有 着 非常 长 的 “ 尖 刺 ”! 

(1.20) (0*) 在 本 练习 中 ， 我 们 研究 高 维 高 斯 空间 的 高 斯 分 布 的 行为 。 考 虑 D 维 空间 的 一 
个 高 斯 分 布 ， 形 式 如 下 

















1 zj 
DZ) = Coron exp ( 2 ) (1.147) 
我 们 想 要 找到 关于 极 坐 标 半径 的 概率 密度 ， 其 中 方向 变量 被 已 经 被 积分 出 去 。 为 了 完成 这 一 
点 ， 证 明 ， 概 率 密度 在 一 个 半径 为 - 且 厚 度 为 e 的 球 壳 上 的 积分 为 p(7)e， 其 中 e 1， 是 
SPprD-1 r2 
p(7) = (orga exp ( 5 ) (1.148) 
这 里 ，Sp 是 D 维 单位 球体 的 表面 积 。 证明 ， 对 于 大 的 D 值 ， 通 数 p(7) 有 一 个 驻 点 位 
于 个 ~ VDo 处 。 通 过 考虑 p( 个 十 日 ， 其 中 e < 个 , 证明 对 于 大 的 DD 值 
2 
pF+O) = pop (与 ) (1.149) 
这 表明 , 7 是 径 向 概率 密度 的 最 大 值 点 ， 且 远离 最 大 值 点 ?时 ，p(7) 会 指数 衰减 ， 长 度 缩放 因子 


为 r。 我 们 已 经 看 到 ， 对 于 大 的 D 值 ，o < 六 ， 因 此 我 们 看 到 大 部 分 的 概率 质量 都 集中 于 大 半径 
的 薄 球 过 上 。 最 后 ， 证 明 概率 密度 p(z) 在 原点 处 的 值 大 于 在 半径 ?处 的 值 ， 二 者 的 差别 是 一 个 值 
为 exp ( 旦 ) 的 因子 。 于 是 我 们 看 到 ， 高 维 高 斯 分 布 的 概率 质量 最 大 的 位 置 不 同 于 半径 上 概率 密度 
景 大 的 位 置 。 当 我 们 在 后 续 章节 中 考虑 模型 参数 的 贝 叶 斯 推断 时 ， 高 维 空间 中 的 高 斯 分 布 的 这 
个 性 质 将 会 起 重要 的 作用 。 | 

(1.21) (**) 考虑 两 个 非 负 数 a 和 5b， 证明， 如 果 a < 9， 那么 a < (ab)3。 使 用 这 个 结果 证 
明 ， 如 果 二 分 类 问题 的 决策 区 域 被 选择 为 最 小 化 误 分 类 的 概率 ， 那 么 这 个 概率 满足 








p( 误 分 类 ) < | {p(w,Ci)p(e, CD) dz (1.150) 


(1.22) (*) 给 定 一 个 损失 矩阵， 其 元 素 为 Lx;， 如 果 对 于 每 个 xz， 我 们 都 选择 使 公式 
(1.81) 取得 最 小 值 的 类 别 ， 那 么 期 望 风 险 会 最 小 。 证 明 ， 如 果 损 失 和 矩阵 为 Lk; = 1 一 I;， 其 
中 ;是 单位 矩阵 的 元 素 ， 那 么 选择 类 别 的 方法 就 变 成 了 选择 具有 最 大 后 验 概率 的 类 别 。 这 种 形 
式 的 损失 矩阵 的 意义 是 什么 ? 

(1.23) (*) 对 于 一 般 的 损失 矩阵 和 一 般 的 类 先 验 概率 ， 推 导 最 小 化 期 望 损失 的 准则 。 

(124) ”(*) 考虑 一 个 分 类 问题 。 这 个 问题 中 ， 把 来 自 类 别 Cx 的 输入 向 量 分 类 为 类 别 Cj? 所 
造成 的 损失 由 损失 矩阵 Lj 给 出 。 并 且 ， 选 择 拒 绝 选项 所 造成 的 损失 为 。 找 到 最 小 化 期 望 损失 
的 决策 准则 。 证 明 ， 当 损失 矩阵 为 Lry = 1 一 Ik; 时， 这 个 结果 就 变 成 了 1.5.3 节 讨论 的 拒绝 准 
则 。 和 和 拒绝 阔 值 0 之 间 的 关系 是 什么 ? 

(1.25) (*) 考虑 将 一 元 目标 变量 的 平方 和 损失 函数 (1.87) 推广 到 多 元 目标 变量 t。 推 让 
后 的 形式 为 























tao] = {| yw) -tne dm at (151) 
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| 0 1 
0 |11/3 1/3 
1| 0 1/3 





表 1.3: 练习 1.39 使 用 的 两 个 二 值 变量 z 和 % 的 联合 概率 分 布 。 行 表示 z 的 值 ， 列 表示 y 的 值 。 











使 用 变 分 法 ,证 明 使 得 这 个 期 望 损 失 取 得 最 小 值 的 函数 Vy(z) 为 V(Z) = Eilt | zj]。 证 明 ， 对 于 一 
元 目标 变量 上 ， 这 个 结果 就 变 成 了 公式 〈1.89) 给 出 的 结果 。 

(1.26) (*) 通过 将 公式 (1.151) 中 的 平方 项 展开 ， 推 导 类 似 于 公式 (1.90) 的 结果 ， 证 
明 ， 对 于 目标 变量 组 成 向 量 t 的 情形 ， 最 小 化 期 望 平方 损失 的 函数 y(z) 仍 然 是 t 的 条 件 期 望 。 

(1.27) ”CG*) 考虑 回归 问题 的 期 望 损失 ， 损 失 函 数 为 公式 (1.91) 给 出 的 Ly。 写 出 为 
了 最 小 化 E[Ly]，y(z) 必 须 满足 的 条 件 。 证 明 ， 对 于 gq = 1， 这 个 解 表 示 条 件 中 位 数 ， 即 函 
数 y(z) 使 ! < y(x) 的 概率 质量 与 1 > V(z) 的 概率 质量 相同 。 并 且 证 明 ， 对 于 4 一 0， 最 小 的 期 
望 L 误 差 为 条 件 众 数 ， 即 函数 y(zx) 等 于 最 大 化 p(t | x) 的 堆 。 

(1.28) (*) 在 1.6 节 ， 我 们 介绍 了 炉 h(zx) 的 思想 ， 即 观察 到 概率 分 布 为 p(z) 的 随机 变量 x 的 
值 之 后 所 获得 的 信息 。 我 们 看 到 ， 对 于 独立 的 变量 YZ 和 y， 有 p(x,y) = p(X)p(y)， 且 炉 函 数 
是 可 加 的 ， 即 h(z,y) = 二 h(x) 十 h(y)。 在 这 个 练习 中 ， 我 们 推导 h 和 和 p 的 函数 关系 h(p)。 首 先 
证 明 h(p”) = 2h(p)， 因 此 通过 数学 归纳 法 ， 有 h(p”) = nh(p)， 其 中 n 是 正 整 数 。 因 此 ， 证 
明 h(pww) = (至)h(p)， 其 中 也 是 一 个 正 整数 。 这 表明 h(p*) = zh(p)， 其 中 zx 是 一 个 正 有 理 数 ， 
从 而 根据 连续 性 ， 这 个 结果 对 于 x 是正 实数 的 情形 也 成 立 。 最 后 ， 证 明 上 述 结果 表明 了 h(p) 的 形 
式 一 定 为 h(p) x lInp。 

(1.29) (*) 考虑 一 个 M 状 态 的 离散 随机 变量 z， 使 用 公式 (1.115) 给 出 的 Jensen 不 等 式 ， 
证 明 概 率 分 布 z(z) 的 灶 满 足 五 zl] < ln M。 

(1.30) ”Gx%) 计算 两 个 高 斯 分 布 plz) = NM(z | 41,0) 和 q(x) =N(z | ms ) 之 间 的 由 公式 

(1.113) 给 出 的 Kullback-Leibler 散 度 。 
(1.31) (**) 考虑 两 个 变量 z 和 YY， 联 合 概率 分 布 为 p(z,y)。 证 明 这 对 变量 的 微分 精 满 足 


Hlz,y] < Hlz] + HIY) (1.152) 


当 且 仅 当 z 和 Y 统 计 独 立时 等 号 成 立 。 

(132) (5) 考虑 一 个 连续 向 量 z， 概 率 分 布 为 pz)， 对 应 的 和 为 互 z]。 假 设 我 
们 对 z 进 行 了 一 个 非 奇 异 的 线性 变换 ， 得 到 一 个 新 的 变量 y = 4z。 证 明 对 应 的 精 
为 Hly] = 互 z] 二 idet(4)|， 其 中 det(4) 表 示 44 的 行列 式 的 值 。 

(1.33) ”(*) 假设 两 个 离散 随机 变量 x 和 vy 的 条 件 炉 太 ly | 四 为 零 。 证明， 对 于 所 有 
的 满足 p(x) > 0 的 rz， 变 量 y 一 定 是 z 的 函数 。 换 名 话说， 对 于 每 个 z， 只 有 一 个 % 的 值 使 
得 p(y | z) 0。 

(1.34) ”CGY*) 使 用 变 分 法 证 明 公式 (1.108) 之 前 的 泛 函 的 驻 点 由 公式 (1.108) 给 出 。 然 后 
使 用 限制 条 件 (1.105) 、 (1.106) 和 (1.107) ， 消 去 拉 格 朗 日 乘 数 ， 从 而 证 明 最 大 灼 解 由 高 
斯 分 布 (1.109) 给 出 。 

(1.35) (*) 使 用 公式 (1.106) 和 公式 (1.107) 的 结果 ， 证 明 一 元 高 斯 分 布 (1.109) 的 炳 
为 (1.110) 。 

(1.36) 0) 一 个 严格 凸 通 数 的 定义 为 : 每 条 弱 都 位 于 函数 图 像 上 方 的 函数 。 证 明 ， 这 等 价 
于 函数 的 二 阶 导 数 为 正 。 

(1.37) (*) 使 用 定义 (1.111) 以 及 概率 的 乘积 规则 ， 证 明 公 式 (1.112) 的 结果 。 

(1.38) CY) 使 用 归纳 法 ,证明 从 凸 函 数 的 不 等 式 (1.114) 可 以 推导 出 公式 (1.115) 。 

(1.39) ”(*%*) 考虑 两 个 变量 -和 y， 每 个 变量 只 有 两 个 可 能 的 取 值 。 它 们 的 联合 概率 分 布 在 
表 1.3 中 给 出 。 计 算 下 面 各 式 的 值 ， 画 一 个 图 说 明 这 些 量 之 间 的 关系 。 


Hlz] Hly|lzx] Hlz,yl 
Hly] Hlz|y Tlz,Yy 
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(1.40) ” (*) 使 用 Jensen 不 等 式 (1.115) ， 其 中 f(z) = Inz， 证 明 一 组 实数 的 算术 平均 值 永 
远 不 小 于 它们 的 几何 平均 值 。 
(1.41) (*) 使 用 概率 的 加 和 规则 和 乘积 规则 ， 证 明 互 信息 T(x, yy) 满足 关系 (1.121) 。 
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2 概率 分 布 


在 第 一 章 中 ， 我 们 强调 了 概率 论 在 解决 模式 识别 问题 时 的 重要 作用 。 我 们 现在 探究 一 下 某 些 
特殊 的 概率 分 布 的 例子 以 及 它们 的 性 质 。 这 些 概率 分 布 本 身 吸 引 了 很 多 人 的 兴趣 ， 也 是 构成 更 
复杂 模型 的 基石 。 我 们 将 在 整 本 书 中 频繁 使 用 这 些 概 率 分 布 。 本 章 中 介绍 的 概率 分 布 也 有 一 个 
重要 的 目的 ， 即 让 我 们 有 机 会 在 简单 的 模型 中 讨论 一 些 关键 的 统计 学 概念 ， 例 如 贝 叶 斯 推断 。 
我 们 在 后 续 章 节 中 会 在 更 复杂 的 模型 里 遇 到 这 些 简单 的 模型 。 

本 章 中 讨论 的 概率 分 布 的 一 个 作用 是 在 给 定 有 限 次 观测 zl,.…,zv 的 前 提 下 ， 对 随机 变 
量 z 的 概率 分 布 pz(z) 建 模 。 这 个 问题 被 称 为 密度 估计 (density estimation) 。 本 章 中， 我们 会 假 
定数 据点 是 独立 同 分 布 的 。 应 该 强调 的 是 ， 密 度 估计 问题 本 质 上 是 病态 的 ， 因 为 产生 有 限 的 
观测 数据 集 的 概率 分 布 有 无 限 多 种 。 实 际 上 ， 任 何在 数据 点 z1,... ,zn 处 概率 非 零 的 概率 分 
布 p(z) 都 是 一 个 潜在 的 候选 。 选 择 一 个 合适 的 分 布 与 模型 选择 的 问题 相关 ， 这 个 我 们 已 经 在 第 
一 章 中 针对 多 项 式 曲线 拟 合 问题 讨论 过 了 。 这 是 模式 识别 领域 的 一 个 中 心 问题 。 

首先 ， 我 们 考虑 离散 随机 变量 的 二 项 分 布 和 多 项 式 分 布 ， 以 及 连续 随机 变量 的 高 斯 分 布 。 这 
是 参数 分 布 (parametric distribution) 的 具体 的 例子 。 之 所 以 被 称 为 参数 分 布 ， 是 因为 少量 可 调 
节 的 参数 控制 了 整个 概率 分 布 。 为 了 把 这 种 模型 应 用 到 密度 估计 问题 中 ， 我 们 需要 一 个 步骤 ， 
能 够 在 给 定 观 察 数据 集 的 条 件 下 ， 确 定 参 数 的 合适 的 值 。 在 频率 学 家 的 观点 中 ， 我 们 通过 最 优 
化 某 些 准则 〈 例 如 似 然 函 数 ) 来 确定 参数 的 具体 值 。 相 反 ， 在 贝 叶 斯 观点 中 ， 给 定 观察 数据 ， 
我 们 引入 参数 的 先 验 分 布 ， 然 后 使 用 贝 叶 斯 定理 来 计算 对 应 后 验 概率 分 布 。 

我 们 会 看 到 ， 共 恩 先 验 (conjugate prior) 有 着 很 重要 的 作用 。 它 使 得 后 验 概率 分 布 的 函数 形 
式 与 先 验 概 率 相 同 ， 因 此 使 得 贝 叶 斯 分 析 得 到 了 极 大 的 简化 。 例 如 ， 多 项 式 分 布 的 参数 的 共 斩 
先 验 被 叫做 狄 利克 雷 分 布 (Dirichlet distribution) ， 而 高 斯 分 布 的 均值 的 共 斩 先 验 是 另 一 个 高 斯 
分 布 。 所 有 这 些 分 布 都 是 指数 族 (exponential family) 分 布 的 特例 。 指 数 族 分 布 有 很 多 重要 的 性 
质 ， 将 在 本 章 中 详细 讨论 。 

参数 方法 的 一 个 限制 是 它 假定 分 布 有 一 个 具体 的 函数 形式 ， 这 对 于 一 个 具体 应 用 来 说 是 不 合 
适 的 。 另 一 种 替代 的 方法 是 非 参 数 (nonparametric) 密度 估计 方法 。 这 种 方法 中 分 布 的 形式 通 
常 依赖 于 数据 集 的 规模 。 这 些 模型 仍然 具有 参数 ， 但 是 这 些 参数 控制 的 是 模型 的 复杂 度 而 不 是 
分 布 的 形式 。 本 章 最 后 ， 我 们 会 考虑 三 种 非 参 数 化 方法 ， 分 布依 束 于 直方 图 、 最 近邻 以 及 核 阴 
数 。 











2.1 二 元 变量 

首先 ,我们 考虑 一 个 二 元 随机 变量 z € {0, 1}。 例 如 ，zx 可 能 描述 了 扔 硬币 的 结果 ，z = 1 表 
示 正面 ，z = 0 表示 反面 。 我 们 可 以 假设 由 一 个 损坏 的 硬币 ， 这 枚 硬币 正面 朝 上 的 概率 未 必 等 
于 反面 萌 上 的 概率 。z = 1 的 概率 被 记 作 参数 4， 因此 


p(z=1|W)=4k (2.1) 
其 中 0 < jy < 1。 我们 可 以 看 到 ，p(z = 0 | 1) = 1 一 kK。z 的 概率 分 布 因此 可 以 写成 
Bern(z | 01) = py*(1 op) 7 (2.2) 


这 被 叫做 伯 努 利 分 布 (Bernoulli distribution) 。 很 容易 证 明 ， 这 个 分 布 是 归 一 化 的 ， 并 且 均 值 
和 方差 为 














Elz] = (2.3) 
varlz| = AL 一 站 (2.4) 


现在 我 们 假设 我 们 有 一 个 2 的 观测 值 的 数据 集 D = {zx1,.….,zN}。 假 设 每 次 观测 都 是 独立 地 
从 p(x | 中 抽取 的 ， 因 此 我 们 可 以 构造 关于 4 的 似 然 函 数 如 下 


N N 
pDIp= ?rt = 1 0 (2.5) 
n=1 n=1 
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图 2.1: 二 项 分 布 (2.9) 关于 mm 的 函数 的 直方 图 ， 其 中 N = 10 且 / = 0.25。 


在 频率 学 家 的 观点 看 来 ， 我 们 可 以 通过 最 大 化 似 然 函 数 来 估计 4 的 值 ， 或 者 等 价 地 ， 最 大 化 对 数 
似 然 函 数 。 在 伯 努 利 分 布 的 情形 下 ， 对 数 似 然 函数 为 


lInp(D | 4) = Dn (zn | 4) SE lny+ (1 — zn)ln(l — 4)} (2.0) 


n=1 


在 这 种 观点 中 ， 值 得 注意 的 一 点 是 对 数 似 然 函数 只 通过 和 式 , zn 依赖 于 zw 的 NV 次 观察 。 这 个 
和 式 是 这 个 分 布下 数据 的 充分 统计 量 (sufficient statistic) ， 我 们 后 面 将 详细 研究 充分 统计 量 的 
重要 作用 。 如 果 我 们 令 lnp(D | 由 关于 /的 导数 等 于 零 ， 我 们 就 得 到 了 最 大 似 然 的 估计 值 


HZ 一 太 > 六 (2.7) 


n=1 


这 也 被 称 为 样本 均值 (sample mean) 。 如 果 我 们 把 数据 集 里 x = 1 (正面 朝 上 ) 的 观测 的 数量 
记 作 m， 那 么 我 们 可 以 把 公式 (2.7) 写成 下 面 的 形式 


HML = (2.8) 

因此 在 最 大 似 然 的 框架 中 ， 正面 朝 上 的 概率 是 数据 集 里 正面 向 上 的 观测 所 占 的 比例 。 

现在 假设 我 们 扔 一 个 硬币 3 次 ， 碰 巧 3 次 都 是 正面 朝 上 。 那 么 N = m = 3， 且 juz = 1。 这 种 
情况 下 ， 最 大 似 然 的 结果 会 预测 所 有 未 来 的 观测 值 都 是 正面 向 上 。 常 识 告诉 我 们 这 个 是 不 合理 
的 。 事 实 上 ， 这 是 最 大 似 然 中 过 拟 合 现象 的 一 个 极端 例子 。 我 们 稍 后 会 看 到 ， 通 过 引入 /的 先 验 
分 布 ， 我 们 会 得 到 一 个 更 合理 的 结论 。 

我 们 也 可 以 求解 给 定数 据 集 规 模 N 的 条 件 下 ,x = 1 的 观测 出 现 的 数量 m 的 概率 分 布 。 
这 被 称 为 二 项 分 布 (binomial distribution) 。 根 据 公 式 (2.5) 可 以 看 到 ， 这 个 概率 正比 
于 pm 人- Am。 为 了 得 到 归 一 化 系数 ， 我 们 注意 到 ， 在 N 次 抛掷 中 ， 我 们 必须 把 所 有 获 
得 m 个 正面 朝 上 的 方 式 都 加 起 来 ， 因 此 二 项 分 布 可 以 写成 











Bin(m | ND) = (VF ) er"(  ™ Cg 


NN N! 
加 = ee 


是 从 总 数 为 N 的 完全 相同 的 物体 中 选择 m 个 物体 的 方式 的 总 数 。 图 21 给 出 
了 NN = 10 且 4 = 0.25 情 况 下 的 二 项 分 布 示 意图 。 


其 中 
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二 项 分 布 的 均值 和 方差 可 以 使 用 练习 1.10 的 结果 得 到 。 练 习 1.10 的 结果 表明 ， 对 于 独立 的 事 
件 ， 加 和 的 均值 等 于 均值 的 加 和 ， 加 和 的 方差 等 于 方差 的 加 和 。 由 于 m = Z1 十 …: 十 ZN， 并 且 
对 于 每 次 观察 ,均值 和 方差 都 分 别 由 公式 (2.3) 和 公式 〈2.4) 给 出 ， 因 此 我 们 有 


























N 
Bim] = 》 mBin(m | NA = Nk (2.11) 
m=0 
N 
vat[m| 三 (m — Elm])*Bin(m | N,n) = Nu 一 站 (2.12) 
m=0 


这 些 结果 也 可 以 直接 使 用 微 积分 的 方法 得 到 。 


2.1.1 ” Beta 分布 


根据 公式 (2.8) ,我 们 已 经 看 到 伯 努 利 分 布 的 参数 4 的 最 大 似 然 解 ， 因 此 在 二 项 分 布 中 ， 这 
个 最 大 似 然 解 也 是 数据 集 里 x = 1 的 观测 所 占 的 比例 。 正 如 我 们 已 经 提 到 过 的 那样 ， 这 对 于 小 规 
模 的 数据 集会 给 出 严重 的 过 拟 合 结果 。 为 了 用 贝 叶 斯 的 观点 看 待 这 个 问题 ,我 们 需要 引入 
一 个 关于 /的 先 验 概 率 分 布 p(U)。 这 里 ， 我 们 考虑 一 种 形式 简单 的 先 验 分 布 。 这 种 形式 简单 
的 先 验 分 布 有 很 多 有 用 的 性 质 。 为 了 找到 这 个 先 验 分布 ， 我 们 注意 到 似 然 函数 是 某 个 因子 
与 hz(L- /) “的 乘积 的 形式 。 如 果 我 们 选择 一 个 正比 于 1 和 (1 一 1) 的 竹 指 数 的 先 验 概率 分 布 ， 
那么 后 验 概率 分 布 (正比 于 先 验 和 似 然 函 数 的 乘积 ) 就 会 有 着 与 先 验 分 布 相同 的 函数 形式 。 这 
个 性 质 被 叫做 共 轿 性 (conjugacy) ， 我 们 在 本 章 的 后 续 部 分 将 看 到 几 个 这 样 的 例子 。 因 此 ,我 
们 把 先 验 分 布 选择 为 Beta 分 布 ， 定 义 为 


IT(ai+b) oo 
Teor (1—p) 


其 中 , T(z) 是 由 公式 (1.141) 定义 的 Gamma 函 数 ， 公 式 (2.13) 保证 了 Beta 分 布 式 归 一 化 的 ， 
即 


Beta( | a,b) = Va (2.13) 























1 
Be C.14 
0 
Beta 分 布 的 均值 和 方差 为 ， 
ab 
wl na bo 


参数 a 和 0b 经 常 被 称 为 超 参 数 (hyperparameter) ， 因 为 它们 控制 了 参数 /的 概率 分 布 。 图 2.2 给 出 
了 不 同 的 超 参 数值 对 应 的 Beta 分 布 的 图 像 。 

/的 后 验 概率 分 布 现在 可 以 这 样 得 到 : 把 Beta 先 验 (2.13) 与 二 项 似 然 函数 (2.9) 相 乘 ， 然 
后 归 一 化 。 只 保留 依赖 于 /的 因子 ， 我 们 看 到 后 验 概率 分 布 的 形式 为 


WR | mod) oe pt (Ls (2.17) 
其 中 1 = N 一 m， 即 对 应 于 硬币 “反面 朝 上 的 样本 数量 。 我 们 看 到 公式 (2.17) 关于 /的 函数 形 
式 与 先 验 分 布 相同 ， 这 反映 出 先 验 关 于 似 然 画 数 的 共 恩 性质 。 实 际 上 ， 它 仅仅 是 另 一 个 Beta 分 
布 。 通 过 与 公式 (2.13) 对 比 ， 我 们 可 以 得 到 它 的 归 一 化 系数 。 因 此 


(6 十 名 十 1 半 国 po 4 
LT(m+a)rl(l+ob) 


我 们 看 到 ， 如 果 一 个 数据 集 里 有 m 次 观测 为 x = 1， 有 ;次 观测 为 z = 0， 那 么 从 先 验 概率 到 后 
验 概率 ，a 的 值 变 大 了 m，5 的 值 变 大 了 i。 这 让 我 们 可 以 简单 地 把 先 验 概率 中 的 超 参数 a 和 0 分 别 
看 成 z = 1 和 x = 0 的 有 效 观 测 数 (effective number of observation) 。 注 意 ，a 和 ?5 不 一 定 是 整数 。 


(1— np) rte! (2.18) 





p(y | m, ab) = 
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图 2.2: 对 于 不 同 的 超 参数 c 和 20， 公式 (2.13) 给 出 的 Beta 分 布 Beta(A | a,5) 关 于 4 的 函数 图 像 。 


另外 ， 如 果 我 们 接 下 来 观测 到 更 多 的 数据 ， 那 么 后 验 概 率 分 布 可 以 扮演 先 验 概率 的 角色 。 为 了 
说 明 这 一 点 ， 我 们 可 以 假想 每 次 值 取 一 个 观测 值 ， 然 后 在 每 次 观测 之 后 更 新 当前 的 后 验 分 布 。 
更 新 方法 是 让 当前 的 后 验 分 布 与 新 观测 值 的 似 然 函 数 相 乘 ， 然 后 归 一 化 ， 获 得 新 的 修正 后 的 后 
验 分 布 。 在 每 个 阶段 ， 后 验 概率 是 一 个 Beta 分 布 ， 对 于 z = 1 和 x = 0 的 观测 总 数 〈 先 验 的 和 实 
际 的 ) 由 参数 a 和 5 给 出 。 观 测 到 一 个 z = 1 仅仅 对 应 于 把 a 的 值 增加 1， 而 观测 到 z = 0 会 使 6 增加 
1。 图 2.3 说 明了 这 个 过 程 中 的 一 个 步骤 。 

我 们 看 到 ， 如 果 我 们 接受 了 贝 叶 斯 观点 ， 那 么 学 习 过 程 中 的 顺序 (sequential) 方法 可 以 自然 
而 然 地 得 出 。 它 与 先 验 和 似 然 函 数 的 选择 无 关 ， 只 取决 于 数据 独立 同 分 布 的 假设 。 顺 序 方法 每 
次 使 用 一 个 观测 值 ， 或 者 每 次 使 用 一 小 批 观测 值 ， 然 后 在 使 用 下 一 个 观测 值 之 前 丢掉 它们 。 例 
如 ， 顺 序 方法 可 以 被 用 于 实时 学 习 的 场景 中 。 在 实时 学 习 的 场景 中 ， 输 入 为 一 个 稳定 持续 的 数 
据 流 ， 模 型 必须 在 观测 到 所 有 数据 之 前 就 进行 预测 。 由 于 顺序 学 习 的 方法 不 需要 把 所 有 的 数据 
都 存储 到 内 存 里 ， 因 此 顺序 方法 对 于 大 的 数据 集 也 很 有 用 。 最 大 似 然 方法 也 可 以 转化 成 顺序 的 
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prior likelihood function posterior 

















0 0.5 1 0 0.5 1 


图 2.3: 贝 叶 斯 顺序 推断 中 的 一 个 步 又 的 例子 。 先 验 概率 为 Beta 分 布 ， 参 数 为 a = 2, = 2， 似 然 函 数 由 
公式 (2.9) 给 出 ， 其 中 入 = m = 1， 对 应 于 xz = 1 的 一 次 观测 ， 从 而 后 验 概率 分 布 为 Beta 分 布 ， 参 数 
为 a = 3,b0 = 2。 
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框架 。 
如 果 我 们 的 目标 是 尽 可 能 好 地 预测 下 一 次 试验 的 输出 ， 那 么 我 们 必须 估计 给 定 观 测 数据 
集 D 的 情况 下 ，z 的 预测 分 布 。 根 据 概 率 的 加 和 规则 和 乘积 规则 ， 这 个 预测 分 布 的 形式 为 














1 1 
p(z=1|D)= 由 p(z=1|Wp(k|D) dy= AD |D) du = Ely|D] (2.19) 


使 用 公式 (2.18) 的 结果 ， 后 验 分 布 p(u | D) 以 及 Beta 分 布 的 均值 的 结果 (2.15) ,我 们 可 以 得 到 
70 十 Q 
70 十 Q 十 ! 十 b 


这 个 结果 可 以 简单 地 表述 为 对 应 于 x = 1 的 观测 结果 〈 包 括 实际 的 观测 值 和 假想 的 先 验 观 测 值 ) 
所 占 的 比例 。 注 意 ， 在 数据 集 无 限 大 的 极限 情况 下 ，m,! 一 co， 此 时 公式 (2.20) 的 结果 变 成 
了 最 大 似 然 的 结果 〈2.8) 。 正 如 我 们 将 看 到 的 那样 ， 贝 叶 斯 的 结果 和 最 大 似 然 的 结果 在 数据 集 
的 规模 趋 于 无 穷 的 情况 下 会 统一 到 一 起 。 这 是 一 个 很 普遍 的 情况 。 对 于 有 限 规模 的 数据 集 ，/ 的 
后 验 均 值 总 是 位 于 先 验 均值 和 公式 (2.7) 给 出 的 4 的 最 大 似 然 估计 之 间 。 

从 图 2.2 中 ， 我 们 可 以 看 到 ， 当 观测 的 数量 增加 时 ， 后 验 分 布 的 图 像 变 得 更 尖 了 。 这 通过 
公式 (2.16) 给 出 的 Beta 分 布 方差 的 结果 也 能 够 看 出 来 。 在 公式 (2.16) 中 ， 如 果 a 一 ce 或 
者 b 一 co， 那 么 方差 就 趋 于 零 。 实 际 上 ， 我 们 可 能 想 知 道 ， 下 面 这 个 性 质 是 不 是 贝 叶 斯 学 习 的 
一 个 共有 的 属性 : 随 着 我 们 观测 到 越 来 越 多 的 数据 ， 后 验 概率 表示 的 不 确定 性 将 会 持续 下 降 。 

为 了 说 明 这 一 点 ， 我 们 可 以 用 频率 学 家 的 观点 考虑 贝 叶 斯 学 习 问 题 。 我 们 可 以 证 明 ， 平 均 来 
看 ， 这 种 性 质 确 实 成 立 。 考 虑 一 个 一 般 的 贝 叶 斯 推断 问题 ， 参 数 为 9， 并 且 我 们 观测 到 了 一 个 数 
据 集 DPD， 由 联合 概率 分 布 p(9, 人) 描述 。 下 面 的 结果 


p(z7=1|7D)= (2.20) 






























































Egl0| = Ep[Eel[0 | DI (2.21) 

其 中 
pg[0] = ) p(0)0 dg (2.22) 
pp[Eo[0 | DI] = 中 { 上 gp(0 | D) a0} p(D) dD (2.23) 


表明 ，9 的 后 验 均值 ， 在 产生 数据 集 的 整个 分 布 上 面 做 平均 ， 等 于 9 的 先 验 均值 。 类 似 地 ， 我 们 
可 以 证 明 








varg|0| = Eplvatg[0 | DI|| + varp [Eel[0 | DI (2.24) 


公式 (2.24) 左 侧 的 项 是 6 的 先 验方 差 。 在 右 侧 ， 第 一 项 是 8 的 平均 后 验方 差 ， 第 二 项 是 6 的 后 验 
均值 的 方差 。 由 于 这 个 方差 是 一 个 整数 ， 因 此 这 个 结果 表明 ， 平 均 来 看 ，6 的 后 验方 差 小 于 先 验 
方差 。 后 验 均值 的 方差 越 大 ， 这 个 方差 的 减 小 就 越 大 。 但 是 需要 注意 的 是 ， 这 个 结果 只 在 平均 
情况 下 成 立 ， 对 于 一 个 特定 的 观测 数据 集 ， 有 可 能 后 验方 差 大 于 先 验 方差 。 




















2.2 多 项 式 变量 
二 元 变量 可 以 用 来 描述 只 能 取 两 种 可 能 值 中 的 某 一 种 这 样 的 量 。 然 而 ， 我 们 经 常会 遇 到 可 以 
取 天 个 互 斥 状态 中 的 某 一 种 的 离散 变量 。 虽 然 有 多 种 方式 来 表达 这 种 变量 ， 但 是 我 们 稍 后 会 看 
到 ， 一 种 比较 方便 的 表示 方法 是 “1-of 天 "表示 法 。 这 种 表示 方法 中 ,变量 被 表示 成 一 个 及 维 向 
量 z， 向 量 中 的 一 个 元 素 zx 等 于 1， 剩 余 的 元 素 等 于 0。 例 如 ， 如 果 我 们 有 一 个 能 够 取 天 = 6 种 状 

态 的 变量 ， 这 个 变量 的 某 次 特定 的 观测 恰好 对 应 于 zs = 1 的 状态 ， 那 么 z 就 可 以 表示 为 
z= (0,0,1,0,0,0)7 (2.25) 


注意 ,这样 的 向 量 满足 > Ai zx = 1。 如 果 我 们 用 参数 由 表示 zx = 1 的 概率 ， 那 么 z 的 分 布 就 是 











K 
rz 1p)= 1 (2.20) 
帮 研 于 
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其 中 == (J,.…,UK) "， 参 数 14 要 满足 1 > 0 和 D1 1x 一 1， 因为 它们 表示 概率 。 概 率 分 布 
(2.26) 可 以 被 看 成 伯 努 利 分 布 对 于 多 个 输出 的 一 个 推广 。 很 容易 看 出 ， 这 个 分 布 是 归 一 化 的 














A | (2.27) 
T k= 

并 且 
= le | Am = (pMK) = (2.28) 


现在 考虑 一 个 有 入 个 独立 观测 值 Z1,.…., zn 的 数据 集 D。 对 应 的 似 然 函 数 的 形式 为 
K K 
p(D | 4) -II 了 -I Rw | | (2.29) 
n=1 k=1 k=1 k=1 


我 们 看 到 似 然 函 数 对 于 入 个 数据 点 的 依赖 只 是 通过 KK 个 下 面 形式 的 量 
mz = > Tink (2.30) 





它 表 示 观 测 到 zx = 1 的 次 数 。 这 被 称 为 这 个 分 布 的 充分 统计 量 (sufficient statistics) 。 
为 了 找到 4 的 最 大 似 然 解 ， 我 们 需要 关于 jw 最 大 化 Inp(D | 内， 并 且 要 限制 由 的 和 必须 等 于 
1。 这 可 以 通过 拉 格 天 日 乘 数 和 实现 ， 即 最 大 化 


K K 
> mxlnpyxt A > Wk — 1 (2.31) 
k=1 k=1 


令 公 式 (2.31) 关于 jx 的 导数 等 于 0， 我 们 有 
Wk=— (2.32) 


我 们 可 以 把 公式 (2.32) 的 结果 代入 到 限制 条 件 >j; px = 1 中 ， 解 得 和 = 一 NN。 因 此 我 们 得 到 了 
最 大 似 然 解 


ML Tk (2.33) 


它 是 和 N 次 观测 中 ，zx = 1 的 观测 所 占 的 比例 。 
我 们 可 以 考虑 m1,…. ,mx 在 参数 1 和 观测 总 数 N 条 件 下 的 联合 分 布 。 根 据 公 式 (2.29) ， 这 
个 分 布 的 形式 为 
K 


N 
Mult(mi,m2,..., mk | AVI) 三 ( | Tha (2.34) 


MTN2 .7 和民 k=1 


这 被 称 为 多 项 式 分 布 (multinomial distribution) 。 归 一 化 系数 是 把 N 个 物体 分 成 大 小 
为 mi,...,mg 的 KK 组 的 方案 总 数 ， 定 义 为 


( ) 人 (2.35) 
m1m2...Mmgk milm2!...mr! 
注意 ，mx 满 足下 面 的 限制 a 
» > mp=N (2.30) 
k=1 
DY 
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图 24: 三 个 变量 p12,K3 上 的 狄 利克 雷 分 布 被 限制 在 一 个 单纯 形 中 ， 如 图 所 示 。 这 是 由 于 限制 条 
件 0 < px < 1 和 2 kx = 1 的 存在 所 造成 的 。 





图 2.5: 三 个 变量 上 的 狄 利克 雷 分 布 的 图 像 ， 其 中 两 个 水 平 轴 是 单纯 形 平面 上 的 坐标 轴 ， 垂 直 轴 对 应 于 概 
率 密度 的 值 。 这 里 {ox} = 0.1 对 应 于 左 图 ，{aw} = 1 对 应 于 中 图 ，{ax} = 10 对 应 于 右 图 。 


2.2.1 ” 狄 利克 雷 分 布 
现在 我 们 介绍 多 项 式 分 布 (2.34) 的 参数 {jx} 的 一 组 先 验 分 布 。 通 过 观察 多 项 式 分 布 的 形 
式 ， 我 们 看 到 ， 共 斩 先 验 为 


K 
pplo) x [La (2.37) 
k=1 


其 中 0 < yw < 1 wx = 1。 这 里 ，ai,...,QKkK 是 分 布 的 参数 ，a 表 示 (a1,...,axkx)'。 注 意 ， 
由 于 加 和 的 限制 ，{jx} 空 间 上 的 分 布 被 限制 在 K 一 1 维 的 单纯 形 (simplex) 当中 。 图 2.4 给 出 
了 KK = 3 的 情形 。 

概率 的 归 一 化 形式 为 





K 
i To (2.38) 


这 被 称 为 狄 利克 雷 分 布 (Dirichlet distribution) 。 这 里 T(x) 是 公式 (1.141) 定义 的 Gamma 胃 
数 ， 而 


K 
ao 一》 ok (2.39) 
三 1 


图 2.5 给 出 了 在 不 同 的 参数 ax 的 情况 下 ， 单 纯 形 上 的 狄 利克 雷 分 布 的 图 像 。 
用 似 然 函 数 (2.34) 乘 以 先 验 (2.38) ,我 们 得 到 了 参数 {jv} 的 后 验 分 布 ， 形 式 为 


K 
p(y|D,a) x pD| ppp lo) sx [人 (2.40) 
k=1 
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图 2.6: 对 于 不 同 的 N 值 ，N 个 均匀 分 布 的 均值 的 直方 图 。 我们 观察 到 ， 随 着 和 N 的 增加 ， 分 布 趋向 于 高 斯 
分 布 。 


我 们 看 到 后 验 分 布 的 形式 又 变 成 了 犹 利克 雷 分 布 ， 这 说 明 ， 狄 利克 雷 分 布 确实 是 多 项 式 分 布 的 

共 轿 先 验 。 这 让 我 们 确定 能 够 通过 与 公式 (2.38) 比较 ， 确 定 归 一 化 系数 。 因 此 
ZU | Da) = Dir(p|at+m) 

T (ao RE N) 1 CQ 十 7 一 工 (2.41) 

T(a1 十 m1) “i IT(ak 十 mg) [I Hk 





一 


其 中 ，m = (7 ,7K)。 与 二 项 分 布 的 先 验 概 率 为 Beta 分 布 相同 ， 我 们 可 以 把 狄 利克 雷 分 
布 的 参数 ax 看 成 ze = 1 的 有 效 观 测 数 。 

需要 主要 的 是 ， 具 有 两 个 状态 的 量 既 可 以 表示 为 二 元 变量 然后 使 用 公式 (2.9) 的 二 项 分 布 
建 模 ， 也 可 以 表示 为 1-of-2 的 变量 然后 使 用 公式 (2.34) 的 多 项 式 分 布 建 模 。 











23 高 斯 分 布 


高 斯 分 布 ， 也 被 称 为 正 态 分 布 ， 广 泛 应 用 于 连续 型 随机 变量 分 布 的 模型 中 。 对 于 一 元 变 
量 z 的 情形 ， 高 斯 分 布 可 以 写成 下 面 的 形式 





N(z | 1,0°) = 





1 1 


其 中 是 均值 ，o? 是 方差 。 对 于 DD 维 向 量 2， 多 元 高 斯 分 布 的 形式 为 





1 
713 





N(z | 4k,>)= 可 | po 1) 31(z— 中 } (2.43) 
(27)3 | 2 
其 中 ,是 一 个 DD 维 均值 向 量 ， 区 是 一 个 D x D 的 协 方差 矩阵 ，| 允 | 是 允 的 行列 式 。 

高 斯 分 布 会 在 许多 不 同 的 问题 中 产生 ， 可 以 从 多 个 不 同 的 角度 来 理解 。 例 如 ， 我 们 已 经 看 
到 ， 对 于 一 个 一 元 实 值 向 量 ， 使 箭 取 得 最 大 值 的 是 高 斯 分 布 。 这 个 性 质 对 于 多 元 高 斯 也 成 立 。 

当 我 们 考虑 多 个 随机 变量 之 和 的 时 候 ， 也 会 产生 高 斯 分 布 。 拉 普 拉 斯 提出 的 中 心 极限 定理 
(central limit theorem) 告诉 我 们 ， 对 于 某 些 温和 的 情况 ， 一 组 随机 变量 之 和 “(当然 也 是 随机 变 
量 ) 的 概率 分 布 随 着 和 式 中 项 的 数量 的 增加 而 逐渐 趋向 高 斯 分 布 (Walker, 1969) 。 考 虑 和 N 个 变 
量 x1,... ,ZN， 每 一 个 都 是 区 间 [0, 1] 上 的 均匀 分 布 ， 然 后 考虑 均值 大 (z1 十 … 十 ZN) 的 分 布 。 对 
于 大 的 N， 这 个 分 布 趋向 于 高 斯 分 布 ， 如 图 2.6 所 示 。 在 实际 应 用 中 ， 随 着 入 的 增加 ， 分 布 会 很 
迅速 收敛 为 高 斯 分 布 。 这 个 结论 导致 的 一 个 结果 是 ， 公 式 (2.9) 定义 的 二 项 分 布 (二 元 随机 变 
量 zx 在 和 N 次 观测 中 出 现 次 数 m 的 分 布 ) 将 会 在 N 一 co 时 趋向 于 高 斯 分 布 (图 2.1 给 出 了 N = 10 的 
情形 ) 。 

高 斯 分 布 有 许多 重要 的 分 析 性 质 ， 我 们 稍 后 将 详细 讨论 这 些 性 质 。 这 就 使 得 本 节 将 会 相当 依 
赖 于 之 前 章节 中 的 技术 ， 并 且 需 要 对 各 种 矩阵 性 质 比 较 熟 悉 。 但 是 ， 我 们 强烈 鼓励 读者 能 够 使 
人 
常 有 帮助 的 。 
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作为 开始 ， 我 们 考虑 高 斯 分 布 的 几何 形式 。 高 斯 对 于 z 的 依赖 是 通过 下 面 形式 的 二 次 型 
A?= (2—1) DY (zn) C.44) 


这 个 二 次 型 出 现在 指数 位 置 上 。A 人 被 叫做 和 zz 之 间 的 马 氏 距离 (Mahalanobis distance) 。 
当 马 是 单位 矩阵 时 ， 就 变 成 了 欧式 距离 。 对 于 z 空 间 中 这 个 二 次 型 是 常数 的 曲面 ， 高 斯 分 布 也 是 
常数 。 

首先 ， 我们 注意 到 矩阵 习 可 以 取 为 对 称 矩 了 泗 ， 而 不 失 一 般 性 。 这 是 因为 任何 非 对 称 项 都 会 从 
指数 中 消失 。 现 在 考虑 协 方差 矩阵 的 特征 向 量 方程 


其 中 i = 1,.….,D。 由 于 允 是 实 对 称 和 矩阵 ， 因 此 它 的 特征 值 也 是 实数 ， 并 且 特 征 向 量 可 以 被 选 成 
单位 正 交 的 ， 即 

Ul uy 一 -5 (2.46) 
其 中 ;是 单位 矩阵 的 第 i, 7 个 元 素 ， 满 足 








1 ee 1, 如 果 ; 一 7 (2.47) 
0， 其 他 情况 
协 方差 矩阵 可 以 表示 成 特征 向 量 的 展开 的 形式 
D 
3 三 >， Nuiu!t (2.48) 
i=1 
类 似 地 ， 协 方差 矩阵 的 逆 和 矩阵 忆 ~1 可 以 表示 为 
| 
Dl 2 we (2.49) 
把 公式 〈2.49) 代入 公式 (2.44) ， 二 次 型 就 变 成 了 
D 了 
2 VW 
(2.50) 
其 中 我 们 定义 
yi= ul (2— 1) (2.51) 


我 们 可 以 把 {yi;} 表 示 成 单位 正 交 向 量 wi 关 于 原始 的 zi 坐标 经 过 平移 和 旋转 后 形成 的 新 的 坐标 
系 。 定义 向 量 y 二 (1, 人 二 ) 2) 工 ， 我 们 有 


y=U(z—h) (2.52) 


其 中 UU 是 一 个 矩阵 ， 它 的 行 是 向 量 w7。 从 公式 (2.46) 可 以 看 出 U 是 一 个 正 交 orthogonal 和 矩阵 ， 
即 它 满足 性 质 UUY = IT， 因 此 也 满足 U7U = TI， 其 中 I 是 单位 矩阵 。 

二 次 型 在 公式 (2.50) 为 常数 的 曲面 上 为 常数 ， 因 此 高 斯 密度 也 是 常数 。 如 果 所 有 的 特征 
信和 ;都 是 正 数 ， 那 么 这 些 曲面 表示 椭 球 面 ， 椭 球 中 心 位 于 4， 椭 球 的 轴 的 方向 沿 着 w， 治 着 轴 向 
的 缩放 因子 为 X2 ， 如 图 2.7 所 示 。 

对 于 将 要 定义 的 高 斯 分 布 ， 有 必要 要 求 协 方差 矩阵 的 所 有 特征 值 X 严 格 大 于 零 ， 否 则 分 布 将 
不 能 被 正确 地 归 一 化 。 一 个 特征 值 严 格 大 于 零 的 矩阵 被 称 为 正定 (positive definite) 矩阵。 在 第 
12 章 ， 我 们 会 遇 到 一 个 或 者 多 个 特征 值 为 零 的 高 斯 分 布 ， 那 种 情况 下 分 布 是 奇异 的 ， 被 限制 在 
了 一 个 低 维 的 子 空间 中 。 如 果 所 有 的 特征 值 都 是 非 负 的 ， 那 么 这 个 矩阵 被 称 为 半 正 定 (positive 
semidefine) 矩阵。 
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图 2.7: 红色 曲线 表示 二 维 空间 x = (x1,72) 的 高 斯 分 布 的 常数 概率 密度 的 椭圆 面 ， 它 表示 的 概率 密度 
为 exp( 一 1/2)， 值 是 在 x = 4 处 计算 的 。 椭 圆 的 轴 由 协 方 差 矩 阵 的 特征 向 量 wi; 定 义 ， 对 应 的 特征 值 为 和 i。 








现在 考虑 在 由 定义 的 新 坐标 系 下 高 斯 分 布 的 形式 。 从 zz 坐标 系 到 y 坐 标 系 ， 我 们 有 一 
个 Jacobian 矩 阵 J， 它 的 元 素 为 





= (2.53) 
其 中 Uj 是 矩阵 U7 了 的 元 素 。 使 用 矩阵 口 的 单位 正 交 性 质 ， 我 们 看 到 Jacobian 和 矩阵 行 列 式 的 平方 为 
= =|IvTv0=|vTU|=|7=1 (2.54) 


因此 |J|== 1。 并 且 , 行列 式 | 允 | 的 协 方差 矩阵 可 以 写成 特征 值 的 乘积 ， 因 此 


D 





2 =II> (2.55) 
j=1 
因此 在 y; 坐 标 系 中 ， 高 斯 分 布 的 形式 为 
| 个 
一 才 演 ex 2 2.56 
p(y) = P(z)lJ| [I 本 | | (2.50) 


这 是 D 个 独立 一 元 高 斯 分 布 的 乘积 。 特 征 向 量 因此 定义 了 一 个 新 的 旋转 、 平 移 的 坐标 系 ， 在 这 
个 坐标 系 中 联合 概率 分 布 可 以 分 解 成 独立 分 布 的 乘积 。 在 y 坐 标 系 中 ， 概 率 分 布 的 积分 为 


fz dy = 本 /- . exp 妨 y;=1 QQ3D 
00 (2nAj)3 2A》5 


j=1" 一 





我 们 现在 考察 高 斯 分 布 的 矩 ， 这 描述 了 参数 HL 和 互 。 高 斯 分 布下 z 的 期 望 为 


EE gp 5 /ee {-¥ We 中 pe 


1 1 1 
ee 届 二 1 可 记 
T 


其 中 我 们 使 用 zx = z 一 A 进 行 了 变量 替换 。 我 们 现在 注意 到 指数 位 置 是 z 的 偶 函 数 ， 并 且 由 于 积 
分 区 间 为 (-co,co)， 因 此 在 因子 (z + 内 中 的 z 中 的 项 会 由 于 对 称 性 变 为 零 。 因 此 


El[z|=k (2.59) 

















(2.58) 
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因此 我 们 把 / 称 为 高 斯 分 布 的 均值 。 
我 们 现在 考虑 高 斯 分 布 的 二 阶 矩 。 在 一 元 变量 的 情形 下 ， 二 阶 矩 由 下 [z] 给 出 。 对 于 多 元 高 
斯 分 布 ， 有 忆 ? 个 由 下 [zizj] 给 出 的 二 阶 矩 ， 可 以 聚集 在 一 起 组 成 矩阵 也 [zz2]。 这 个 矩阵 可 以 写成 


















































1 1 1 
[zz7] = sr /ep {-z — 1) 5 1(z— ) zx! dz 
(27)3 |>|? 
1 


1 1 Ts T 

re Cx 和 > d 
| "| 有 2 (e+e +t) 

其 中 ， 我 们 再 次 应 用 了 z = x 一 A 来 进行 变量 替换 。 注 意 ， 涉 及 到 Hz7 和 zA 的 交叉 项 将 再 次 由 

于 对 称 性 而 变 为 零 。 项 jw 是 常数 ， 可 以 从 积分 中 拿 出 。 它 本 身 等 于 单位 矩阵 ， 因 为 高 斯 分 布 

是 归 一 化 的 。 考 虑 涉及 到 zz7 的 项 。 我 们 可 以 再 次 使 用 公式 (2.45) 给 出 的 协 方差 矩阵 的 特征 向 

量 展开 ， 以 及 特征 向 量 集合 的 完备 性 ， 得 到 


z = yu (2.60) 














DD D 2? 
2 wiuy 上 exp {- > 演 | yiy; dy (2.61) 


i=1 
推导 过 程 中 我 们 使 用 了 特征 向 量 方程 (2.45) ， 以 及 下 面 的 事实 : 中 间 一 行 的 等 式 右 侧 的 积分 由 
于 对 称 性 会 等 于 零 (除非 i= 7) 。 最 后 一 行 ， 我 们 使 用 了 公式 (1.50) 和 公式 (2.55) ， 以 及 公 
式 (2.48) 。 因 此 我 们 有 











Elzz7] = nn 十 也 (2.62) 

对 于 一 元 随机 变量 的 方差 ， 为 了 定义 方差 ， 我 们 在 取 二 阶 矩 之 前 会 减 掉 均值 。 类 似 地 ， 对 于 
多 元 变量 的 情形 ， 把 均值 减 掉 同样 很 方便 。 这 给 出 了 随机 变量 zx 的 协 方差 (covariance) ， 定 义 
为 












































var[z] = E |[(x 一 下 [z])(z 一 [zz])] (2.63) 
对 于 高 斯 分 布 这 一 特例 ， 我 们 可 以 使 用 EE[z] = 4 以 及 公式 〈2.62) 的 结果 ， 得 到 
vafr|z] = (2.64) 





由 于 参数 马公 式 了 高 斯 分 布下 z 的 协 方差 ， 因 此 它 被 称 为 协 方差 矩阵 。 

虽然 高 斯 分 布 (2.43) 被 广泛 用 作 概 率 密度 模型 ， 但 是 它 有 着 一 些 巨大 的 局 限 性 。 考 虑 分 布 
中 自由 参数 的 数量 。 一 个 通常 的 对 称 协 方差 矩阵 妃 有 230 个 独立 参数 ，A 中 有 另外 万 个 独立 参 
数 ， 因 此 总 计 有 人 +9 个 参数 。 对 于 大 的 D 值 ， 参 数 的 总 数 随 着 吃 以 平方 的 方式 增长 ， 并 且 对 
大 矩阵 进行 计算 、 求 逆 会 变 得 无 法 计算 。 解 决 这 个 问题 的 一 种 方式 是 使 用 协 方差 矩阵 的 限制 形 
式 。 如 果 我 们 考虑 对 角 的 diagonal) 协 方差 矩阵 ， 即 习 = diag(o?)， 那 么 在 概率 密度 模型 中 ， 
我 们 就 有 总 数 2D 个 独立 参数 。 常 数 密度 的 对 应 的 轮廓 线 是 与 轴 对 齐 的 椭 球 。 我 们 可 以 进一步 地 
把 协 方差 矩阵 限制 成 正比 于 单位 矩阵 ， 允 = o2T， 被 称 为 各 向 同性 isotropic 的 协 方差 。 这 使 得 模 
型 有 D 十 1 个 独立 的 参数 ， 并 且 常 数 概率 密度 是 球面 。 图 2.8 给 出 了 通常 的 协 方差 矩阵 、 对 角 的 
协 方差 矩阵 以 及 各 向 同性 协 方差 矩阵 的 概率 。 不 幸 的 是 ， 尽 管 这 样 的 方法 限制 了 概率 分 布 的 的 
自由 度 的 数量 ， 并 且 使 得 求 协 方差 矩阵 的 道 矩 阵 可 以 更 快 地 完成 ， 但 是 这 样 做 也 极 大 地 限制 了 
概率 密度 的 形式 ， 限 制 了 它 描述 模型 中 有 趣 的 相关 性 的 能 
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XT2 V2 V2 


(a) (b) (9) 


图 2.8: 二 维 高 斯 分 布 的 常数 概率 密度 轮 廊 线 ， 其 中 ，(Q) 图 对 应 的 协 方差 矩阵 为 一 般 形式 ，(b) 图 对 应 的 协 
方差 矩阵 为 对 角 和 矩阵 ， 图 中 椭圆 的 轮廓 线 与 坐标 轴 对 齐 ，(O 图 对 应 的 协 方差 矩阵 正比 于 单位 矩阵 ， 图 中 
的 轮廓 线 是 同心 圆 。 





高 斯 分 布 的 另 一 个 局 限 性 是 它 本 质 上 是 单 峰 的 〈 即 只 有 一 个 最 大 值 ) ， 因 此 不 能 够 很 好 地 近 
似 多 峰 分 布 。 因 此 高 斯 分 布 一 方面 相当 灵活 ， 因 为 它 有 很 多 参数 。 另 一 方面 ， 它 又 有 很 大 的 局 
限 性 ， 因 为 它 不 能 够 近似 很 多 概率 分 布 。 我 们 稍 后 会 看 到 ， 引 入 潜在 变量 (latent variable) ， 
也 被 称 为 隐藏 变量 (hidden variable) 或 者 未 观察 变量 (unobserved variable) ,会 让 这 两 个 问题 
都 得 到 解决 。 特 别 地 ， 通 过 引入 离散 型 潜在 变量 ， 相 当 多 的 多 峰 分 布 可 以 使 用 混合 高 斯 分 布 来 
描述 (在 23.9 节 讨论 ) 。 类 似 地 ， 正 如 第 12 章 所 述 ， 引 入 连续 型 潜在 变量 可 以 产生 出 一 种 模 
型 ， 这 种 模型 中 自由 参数 可 以 被 控制 成 与 数据 空间 的 维度 DD 无 关 ， 同 时 仍然 允许 模型 描述 数据 
集 里 主要 的 相关 性 关系 。 实 际 上 ， 这 两 种 方法 可 以 结合 起 来 ， 进 一 步 扩 展 ， 推 导出 一 大 类 层次 
模型 ， 这 些 模型 可 以 适用 于 相当 多 的 实际 应 用 。 例 如 ， 广 泛 用 作 图 像 的 概率 模型 的 高 斯 版 本 马 
尔 科 夫 随机 场 (Markov random field) 是 像素 灰 度 空间 的 高 斯 分 布 ， 但 是 通过 引入 能 够 反映 空间 
中 像素 组 织 的 结构 ， 这 种 分 布 可 以 很 方便 地 处 理 。 类 似 地 ， 线 性 动态 系统 (linear dynamical 
system) ， 用 来 对 涉及 到 时 序数 据 的 应 用 (例如 视频 跟踪 ) 进行 建 模 ， 也 是 一 个 联合 高 斯 分 
布 。 这 个 分 布 涉及 到 相当 多 的 观测 变量 和 潜在 变量 。 但 是 通过 分 布 上 的 结构 信息 ， 我 们 可 以 很 
方便 地 进行 处 理 。 表 达 这 种 复杂 分 布 的 形式 和 性 质 的 一 个 强大 的 框架 是 概率 图 模型 ， 这 是 第 8 章 
的 主题 。 











2.3.1 条 件 高 斯 分 布 


多 元 高 斯 分 布 的 一 个 重要 性 质 是 ， 如 果 两 组 变量 是 联合 高 斯 分 布 ， 那么 以 一 组 变量 为 条 件 ， 
另 一 组 变量 同样 是 高 斯 分 布 。 类 似 地 ， 任 何 一 个 变量 的 边缘 分 布 也 是 高 斯 分 布 。 
首先 考虑 条 件 概 率 的 情形 。 假 设 z 是 一 个 服从 高 斯 分 布 W(z | 4,) 的 D 维 向 量 。 我 们 把 x 划 
分 成 两 个 不 相交 的 子 集 zc 和 zb。 不 失 一 般 性 ， 我 们 可 以 令 zo 为 z 的 前 M 个 分 量 ， 令 zt 为 剩余 
的 D 一 M 个 分 量 ， 因 此 
(2.65) 
To 








_ (Ha 
大 三 mm (2.60) 
协 方 差 矩 阵 忆 为 
Zou Pap 
区 = 全 (2.67) 


注意 ,， 协 方差 矩阵 的 对 称 性 对 ”= 允 表 明 允 ws 和 ws 也 是 对 称 的 ， 而 Dba = 忆 zp。 
在 许多 情况 下 ， 使 用 协 方 差 矩 阵 的 逆 矩 阵 比 较 方便 。 即 


A (2.68) 


这 被 称 为 精度 矩阵 (precision matrix) 。 事 实 上 ， 我们 会 看 到 ， 高 斯 分 布 的 一 些 性 质 可 以 使 用 协 
方差 来 自然 地 表达 出 来 ， 而 其 他 的 性 质 如 果 使 用 精度 表示 ， 形 式 会 更 简单 。 于 是 我 们 也 可 以 引 
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入 精度 矩阵 的 划分 形式 
Apa Am 


对 应 于 向 量 z 的 划分 (2.65) 。 由 于 一 个 对 称 和 矩阵 的 逆 窍 阵 也 是 对 称 和 矩阵 ， 我 们 可 以 看 
到 Au 和 A 吕 是 对 称 的 ， 而 A = Apa。 这 里 应 该 强调 的 一 点 是 ， Aua 不 是 简单 地 对 wi 求 逆 。 事 
实 上 ， 我 们 稍 后 会 简单 考察 划分 矩阵 的 逆 和 矩阵 与 各 个 分 块 的 逆 和 矩阵 之 间 的 关系 。 

首先 ， 我 们 来 寻找 条 件 概 率 分 布 p(xa | x0) 的 表达 式 。 根 据 概率 的 乘积 规则 ， 我 们 看 到 ， 条 
件 分 布 可 以 根据 联合 分 布 p(x) = p(xa, Zb) 很 容易 地 计算 出 来 。 我 们 只 需 把 ze 固定 为 观测 值 ， 然 
后 对 得 到 的 表达 式 进 行 归 一 化 ， 得 到 zu 的 一 个 合法 的 概率 分 布 。 我 们 不 显示 地 进行 归 一 化 ， 相 
反 ， 我们 可 以 用 一 种 更 有 效率 的 方式 求解 。 我 们 首先 考虑 由 公式 (2.44) 给 出 的 高 斯 分 布 指数 项 
中 出 现 的 二 次 型 ， 然 后 在 计算 的 最 后 阶段 重新 考虑 归 一 化 系数 。 如 果 我 们 使 用 公式 (2.65) 、 公 
式 (2.66) 和 公式 (2.69) 的 划分 方式 ， 我 们 有 


A= 人 oe (2.69) 


-3(e -HW) Ds) = 





(za 一 ja) ans Wa) (za Ha) 7 Aao(To 一 As) (2.70) 





已 | 瑚 已 | 一 


(x5 — p10) Apa(Ta — pa) — = (To — po) Aw(zo — pp) 

我 们 把 它 看 成 的 函数 ， 这 又 是 一 个 二 次 型 ， 因 此 对 应 的 条 件 分 布 plzs | x6) 是 高 斯 分 布 。 由 于 
分 布 由 均值 和 协 方差 完全 确定 ， 因 此 我 们 的 目标 是 通过 观察 公式 (270) 找到 p(za | zo) 的 均值 
和 协 方差 的 表达 式 。 

这 是 一 个 与 高 斯 分 布 相关 的 相当 常见 的 操作 ， 有 时 被 称 为 “完成 平方 项 *。 这 种 方法 中 ,我 们 
一 直 一 个 二 次 型 ， 这 个 二 次 型 定义 了 高 斯 分 布 的 指数 项 ， 我 们 需要 确定 对 应 的 均值 和 协 方差 。 
这 种 问题 可 以 这 样 解决 : 我 们 注意 到 一 个 一 般 的 高 斯 分 布 N(z | / 马 ) 的 指数 项 可 以 写成 

5s) De = -307 z+ wT 1p+ 常 数 C71) 
其 中 ，“ 常 数 "表示 与 无关 的 项 ， 并 且 我 们 用 到 了 允 的 对 称 性 。 因 此 ， 如 果 我 们 把 普通 的 二 次 型 
表示 成 公式 (2.71) 右 侧 的 形式 ， 那 么 我 们 可 以 立即 令 z 中 的 二 阶 项 的 系数 矩阵 等 于 协 方差 矩阵 
的 道 矩 阵 号 -!， 令 z 中 的 线性 项 的 系数 等 于 号 - 111， 这 样 我 们 就 可 以 得 到 

现在 让 我 们 把 这 个 方法 应 用 到 条 件 高 斯 分 布 plzs | zj 中 。 条 件 高 斯 分 布 的 指数 项 的 二 次 型 
由 公式 (2.70) 给 出 。 我 们 把 这 个 分 布 的 均值 和 协 方差 分 别 记 作 As 和 3。 考虑 公式 (2.70) 
对 za 的 函数 依赖 关系 ， 其 中 2 被 当成 常数 。 如 果 我 们 选 出 所 有 zo 的 二 阶 项 ， 那 么 我 们 有 














-zz Aare (2.72) 
从 这 个 公式 中 ,我 们 可 以 立即 看 出 ，p(xa | 26) 的 协 方差 (精度 矩阵 的 逆 窍 阵 ) 为 
5 = Aaa (2.73) 
现在 考虑 公式 (2.70) 中 所 有 za 的 常数 项 
TL {Aaapa — Aab(To 一 中)} (2.74) 


其 中 ,我 们 使 用 了 A# = Aw 这 个 等 式 。 根 据 我 们 对 一 般 形 式 (2.71) 的 讨论 ， 这 个 表达 式 
中 zo 的 系数 一 定 等 于 写 bal， 因此 


Halb 二 Pap{Aaapa EE Aap(To Lo)} 
= Ka — Maa Aab(To — p10) 


推导 过 程 中 我 们 使 用 了 公式 (2.73) 。 


(2.75) 
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结果 (2.73) 和 “(2.75) 是 根据 原始 联合 分 布 plza; zb) 的 分 块 精度 矩阵 进行 表达 的 。 我 们 也 





可 以 根据 对 应 的 分 块 协 方差 矩阵 来 表达 这 些 结果 。 为 了 完成 这 一 点 ， 我 们 使 用 下 面 的 关于 分 块 
和 矩阵 的 逆 窍 阵 的 恒等式 
A BY M _MBD-! 区 让 
CD ~\-D iCM D-i1+D-iCMBD-! 
其 中 我 们 已 经 定义 了 
M=(A4A- BD 'C)! (2.77) 
MM 被 称 为 公式 (2.76) 左 侧 矩 阵 关 于 子 和 矩阵 万 的 舒 尔 补 〈Schur complement) 。 使 用 定义 
Pa Pap Aaa Auw 
(> | 加 (wa | Po 
使 用 公式 (2.76) ,我 们 有 
人 ia 二 (Poa DD Dp) (2.79) 
Aw = 一 (Zou 一 D405, Po) 1 Ds (2.80) 
从 这 些 结果 中 ， 我 们 可 以 得 到 条 件 概 率 分 布 p(za | 26) 的 均值 和 协 方 差 的 表达 式 
Halb 二 Ma 十 Da 5 (zo 7 Ap) (2.81) 
DD Do (2.82) 
对 比 公 式 (2.73) 和 (2.82) ,我 们 看 到 条 件 概 率 分 布 p(xa | zo) 如 果 使 用 分 块 精度 矩阵 而 不 是 分 
块 协 方差 矩阵 表示 ， 那 么 它 的 形式 会 更 简单 。 注 意 ， 条 件 概率 分 布 p(zu | 2x0) 的 均值 (由 公 


式 (2.81) 给 出 ) 是 zs 的 线性 函数 ， 协 方差 〈 由 公式 (2.82) 给 出 ) 与 zj 无 关 。 这 是 线性 高 斯 
(linear-Gaussian) 模型 的 一 个 例子 。 


2.3.2 边缘 高 斯 分 布 
我 们 已 经 看 到 ， 如 果 联 合 分 布 pLzu, zb) 是 高 斯 分 布 ， 那 么 条 件 概 率 分 布 PLzou | zb) 也 是 高 斯 
分 布 。 现 在 我 们 要 讨论 边缘 概率 分 布 


/ a (2.83) 





正如 我 们 即将 看 到 的 那样 ， 这 也 是 一 个 高 斯 分 布 。 和 之 前 一 样 ， 我 们 高 效 估计 这 个 概率 分 布 的 
集 略 是 把 注意 力 集中 于 联合 分 布 的 指数 项 的 二 次 型 ， 然 后 找 出 边缘 分 布 p(xo) 的 均值 和 协 方差 。 

联合 分 布 的 二 次 型 可 以 使 用 分 块 精 度 和 矩阵 表示 成 公式 (2.70) 的 形式 。 由 于 我 们 的 目标 是 积 
分 出 ze， 这 可 以 按照 下 面 的 方式 很 容易 地 计算 出 来 : 首先 考虑 涉及 到 z6 的 项 ， 然 后 配 出 平方 
项 ， 使 得 积分 能 够 更 方便 地 计算 。 选 出 涉及 到 zz 的 项 ， 我 们 有 


1 1 a 四 1 e 
-5 Abpzb 十 zz mm = 52 = AP)7 Ap(zb 人 AD) 3m A m (2.84) 


其 中 ， 我们 定义 了 

m= AM, — Apva(Ta — Wo) (2.85) 
我 们 看 到 ， 与 £6 相关 的 项 已 经 被 转化 为 了 一 个 高 斯 分 布 的 标准 二 次 型 ， 这 对 应 于 公式 (2.84) 
的 右 侧 的 第 一 项 ， 加 上 一 个 与 ,无关 (但 是 与 a 相关 ) 的 项 。 所 以 ， 当 我 们 取 这 个 二 次 型 作为 
高 斯 分 布 的 指数 项 时 ， 我们 看 到 公式 (2.83) 要 求 的 关于 zz 的 积分 的 形式 为 





1 
/= {= = A m)’ Mpo (zo , Am】 dzp (2.80) 
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这 个 积分 很 容易 计算 。 我 们 注意 到 ， 它 是 一 个 在 未 归 一 化 的 高 斯 分 布 上 做 的 积分 ， 因 此 结果 是 
归 一 化 系数 的 倒数 。 从 公式 〈2.43) 给 出 的 归 一 化 的 高 斯 分 布 的 形式 ， 我 们 可 以 看 到 ， 高 斯 分 布 
的 系数 与 均值 无 关 ， 只 依赖 于 协 方差 矩阵 的 行列 式 。 因 此 ， 通 过 关于 zs 配 出 平方 项 的 方法 ， 我 
们 能 够 积分 出 ze， 这 样 由 于 公式 (2.84) 的 左 侧 的 贡献 ， 唯 一 剩余 的 与 ro 相关 的 项 就 是 公式 
(2.84) 的 右 侧 的 最 后 一 项 ， 其 中 m 由 公式 〈2.85) 给 出 。 把 这 一 项 与 公式 (2.70) 中 余下 的 
与 Ya 相关 的 项 结合 ， 我 们 有 


1 二 
5 人 Au Aia(zZa 了 Ha)] A [Avopo > Abpa(zZa HAaj] 


1 Na 
二 za Auaza 十 ZLZ(AuaHs le AupHp) 人 常数 C.87) 


1 
二 jza (Aaa Aab A Aba)Ta 
十 XT 了 (Aaa 一 AapAnlAba)La 十 常数 


其 中 ，“ 常 数 "表示 与 ze 无关 的 量 。 再 次 与 公式 (271) 比较 ， 我 们 可 以 看 到 边缘 概率 分 
布 p(xa) 的 协 方差 矩阵 为 
2 = (Aaa AaAn Ava) (2.88) 


类 似 地 ， 均 值 由 下 式 给 出 

Da(Aaa — AaoAB Ava)Ka = Ha (2.89) 
其 中 我 们 使 用 了 公式 (2.88) 的 结果 。 协 方差 (2.88) 是 用 公式 (2.69) 给 出 分 块 精度 矩阵 表达 
的 。 我 们 可 以 用 公式 (2.67) 给 出 的 对 应 的 分 块 协 方差 矩阵 重 写 这 个 结果 ， 就 像 我 们 在 条 件 概率 
分 布 时 做 的 那样 。 这 两 个 分 块 矩阵 的 关系 为 


一 1 
(= em 
使 用 公式 (2.76) ， 我 们 有 
(AAA SY C.91) 
这 样 我 们 就 得 到 了 符合 直觉 的 结果 ， 即 边缘 概率 p(zo) 的 均值 和 协 方差 为 
E[zo] = pa (2.92) 
cov[zal] = Baa (2.93) 


我 们 看 到 对 于 一 个 边缘 概率 分 布 ， 如 果 使 用 分 块 协 方差 矩阵 表示 ， 那 么 均值 和 方差 的 表示 形式 
都 会 得 到 极 大 的 简化 ， 这 与 条 件 概 率 分 布 的 情形 恰好 相反 。 在 条 件 概率 分 布 的 情况 下 ， 使 用 分 
块 精度 矩阵 会 得 到 更 加 简单 的 表示 形式 。 

我 们 关于 分 块 高 斯 的 边缘 分 布 和 条 件 分 布 的 结果 可 以 总 结 如 下 。 

给 定 一 个 联合 高 斯 分 布 N(z | 1, 允 )， 其 中 A 三 史上 且 


_ /Xa /Ka 
= (2 一 | (2.94) 


Zaa Tap Aaa Am 
二 = 2.95 
个， | 人 | 
条 件 概率 分 布 : 
p(xa | Zb) = N (va | Hao, Aaa) (2.90) 
Halb 二 Ha 一 人 过 Aaup(azb > Hp) (2.97) 
边缘 概率 分 布 : 
p(Xa) = N (za | pa, Daa) (2.98) 





在 图 2.9 中 ， 我 们 给 出 了 一 个 涉及 到 两 个 变量 的 多 元 高 斯 分 布 ， 用 来 说 明 条 件 概 率 分 布 和 边 
缘 概 率 分 布 的 思想 。 
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图 2.9: 左 图 给 出 了 两 个 变量 上 的 高 斯 概率 分 布 p(za; zb) 的 轮廓 线 ， 右 图 给 出 了 边缘 概率 分 布 pze) 〈 蓝 色 
曲线 ) 和 zz = 0.7 的 条 件 概率 分 布 plza | Ze) 〈 红 色 曲 线 ) 。 


2.3.3 高 斯 变量 的 贝 叶 斯 定理 


在 2.3.1 节 和 2.3.2 节 ， 我 们 考虑 了 高 斯 分 布 p(z)。 在 分 析 的 过 程 中 ， 我 们 把 向 量 z 切 分 成 了 两 
个 子 向 量 z = (zu, zj) ， 然 后 找到 了 条 件 概 率 分 布 p(zu | zo) 和 边缘 概率 分 布 p(xa) 的 表达 式 。 我 
们 注意 到 ， 条 件 分 布 p(zxa | z 中 是 zZ 的 线性 函数 。 这 里 我 们 将 会 假定 我 们 被 给 定 一 个 高 斯 边缘 分 
布 P(z) 和 一 个 高 斯 条 件 分 布 P(y | x)， 其 中 p(y | z) 的 均值 是 z 的 线性 函数 ， 协 方差 与 z 无 关 。 这 
是 线性 高 斯 模型 (linear Gaussian model) 的 一 个 例子 (Roweis and Ghahramani, 1999) 。 我 们 将 
在 8.1.4 节 在 更 一 般 的 情况 下 研究 它 。 我 们 想 找 到 边缘 概率 分 布 p(y) 和 条 件 概率 分 布 p(x | y)。 这 
是 一 个 在 后 续 章 节 中 经 常 出 现 的 问题 ， 在 这 里 推导 出 一 般 的 结果 会 很 方便 。 

我 们 令 边 缘 概率 分 布 和 条 件 概率 分 布 的 形式 如 下 

p(x)=N(z | HA (2.99) 
p(y |z)=N(y| Az+b,L !) (2.100) 
其 中 ，J, A 和 b 是 控制 均值 的 参数 ，A 和 工 是 精度 矩阵 。 如 果 z 的 维度 为 M，y 的 维度 为 D， 那 么 
矩阵 A 的 大 小 为 Dx M。 
首先 ， 我们 寻找 z 和 wy 的 联合 分 布 的 表达 式 。 为 了 做 到 这 一 点 ， 我 们 定义 


二 (7 (2.101) 
y 
然后 考虑 联合 概率 分 布 的 对 数 
lnp(z) 一 Inp(z) 十 lnp(y | z) 
1 
= 一 5 一 A) Alz 一 用) (2.102) 
-5(y Az -TL(y -Az -一品 十 常数 
其 中 ,“ 常 数 "表示 与 r 和 % 无 关 的 项 。 与 之 前 相同 ， 我 们 看 到 这 是 z 的 分 量 的 一 个 二 次 函数 ， 因 
此 p(z) 是 一 个 高 斯 分 布 。 为 了 找到 这 个 高 斯 分 布 的 精度 ， 我 们 考虑 公式 (2.102) 的 第 二 项 ， 它 
可 以 写成 
327(A + ATLA)z— YLy 十 jg7Z4z 十 jz747T9% 


__1/zY (A+ATLA -ATIN (2) __1,7p, 
2\y 一 工 4 L y/ 2 
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(2.103) 


因此 z 上 的 高 斯 分 布 的 精度 和 矩阵 〈 协 方差 的 逆 矩 阵 ) 为 


T _ AT 
R= 人 LA 一 4 2 


2.1 
一 了 4 L 0 


协 方差 矩阵 可 以 通过 取 精 度 矩 阵 的 逆 矩 阵 的 方式 得 到 ， 求 逆 矩 阵 可 以 使 用 公式 (2.76) 。 因 此 


A-! A-1AT7 
eoW 二 关怀 二 pe es A (2.105) 
类 似 地 ， 我 们 可 以 找到 z 上 的 高 斯 分 布 的 均值 ， 方 法 是 找到 (2.102) 中 的 线性 项 ， 即 
7 
i T AT Tr»_ /Zz Au—A‘Lb 
2 A 人 1 一 2 4 Lb+y Lb= (® ( rp ) (2.100) 





我 们 在 更 早 的 时 候 ， 在 多 元 高 斯 的 二 次 型 中 通过 完成 平方 项 的 方法 得 到 了 结果 (2.71) 。 使 用 这 
个 结果 ， 我 们 可 得 z 的 均值 为 
Elz] = R-1 号 | (2.107) 


使 用 公式 (2.105) ,我 们 可 以 得 到 


























ms] H 

[2z] 一 ( | (2.108) 
接 下 来 我 们 寻找 边缘 分 布 p(y) 的 表达 式 ， 这 个 边缘 分 布 是 通过 对 zx 积分 得 到 的 。 回 忆 一 下 ， 

对 于 高 斯 随机 向 量 的 分 量 的 一 个 子 集 的 边缘 分 布 ， 当 用 分 块 协 方差 矩阵 来 表示 时 ， 形 式 会 非常 

简单 。 具 体 地 ， 它 的 均值 和 协 方差 分 别 由 公式 (2.92) 和 公式 (2.93) 给 出 。 使 用 公式 (2.105) 

和 公式 (2.108) ,我 们 看 到 边缘 分 布 p(y) 的 均值 和 协 方差 为 

Ely| = Ap+b (2.109) 




















covly] =L- 1+ AA- 1!A7 (2.110) 


一 个 特殊 情况 是 4 = 工 这 时 它 变 成 了 两 个 高 斯 的 卷 积 。 我 们 可 以 看 到 ， 卷 积 的 均值 是 两 个 高 
斯 的 均值 的 和 ， 卷 积 的 协 方差 是 它们 的 协 方差 的 和 。 

最 后 ， 我 们 寻找 条 件 分 布 p(z | y) 的 表达 式 。 回 忆 一 下 ， 如 果 条 件 概 率 分 布 的 结果 用 分 块 精 
度 和 矩阵 表示 ， 那 么 结果 的 形式 会 更 简洁 ， 例 如 公式 (2.73) 和 公式 (2.75) 。 把 这 些 结果 应 用 到 
(2.105) 和 (2.108) 中 ,我 们 看 到 条 件 分 布 p(x | y) 的 均值 和 方差 为 


Elz | y= (A+ALA) {A LYy -b+ An) (2.111) 














cov[z |y=(A+ALA)! (2.112) 


这 个 条 件 分 布 的 估计 可 以 看 成 贝 叶 斯 定理 的 一 个 例子 。 我 们 可 以 把 分 布 p(x) 看 成 zt 的 先 验 分 
布 。 如 果 变 量 y 被 观测 到 了 ， 那 么 条 件 分 布 p(x | 9) 表 示 z 的 对 应 的 后 验 分 布 。 找 到 边缘 分 布 和 条 
件 分 布 ， 我 们 可 以 用 p(z | y)p(y) 的 形式 表示 联合 分 布 p(z) = p(X)p(y | z)。 这 些 结果 总 结 如 
下 


给 定 z 的 一 个 边缘 高 斯 分 布 ， 以 及 在 给 定 z 的 条 件 下 y 的 条 件 高 斯 分 布 ， 形 式 为 


p(x)=N(z | pA ) (2.113) 
p(y |zx)=N(y| Az+b,L ") (2.114) 

y 的 边缘 分 布 以 及 给 定 y 的 条 件 下 zx 的 条 件 分 布 为 
p(y =Ny| Ap+b,L 1!+ 4A-147) (2.115) 
p(z |y) =N(z|E{ATL(Yy -5) + An},5) C.119 

其 中 

=(A+ALA)! (2.117) 
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2.3.4 高 斯 分 布 的 最 大 似 然 估计 


给 定 一 个 数据 集 = (zx1,.……,zZN)*， 其 中 观测 {xn} 假定 是 独立 地 从 多 元 高 斯 分 布 中 抽取 
的 。 我 们 可 以 使 用 最 大介 加 于 估计 生计 的 大 数 . 对 数 似 然 函 数 为 


ND N 下 
Inp( 环 | 凡 忆 = 一 In(2r) 一 可 所 | 下 一 了 Dlen — 1) 3 (zn 一 个 (2.118) 
过 简单 的 重新 排列 ， 我 们 看 到 似 然 函 数 对 数据 集 的 依赖 只 通过 下 面 两 个 量 体 现 
N N 
>， 过 而 挝 Znzl (2.119) 
n=1 n=1 


这 被 称 为 高 斯 分 布 的 充分 统计 量 (sufficient statistics) 。 使 用 公式 (C.19) ， 对 数 似 然 函数 关 
于 的 导数 为 


N 


0 
二 lnp( 环 | ,5 本 (2.120) 


令 这 个 导数 等 于 零 ， 我 们 得 到 了 均值 的 最 大 似 然 估计 





1 


n=1 


这 是 数据 点 的 观测 集合 的 均值 。 公 式 (2.118) 关于 允 的 最 大 化 更 加 复杂 。 最 简单 的 方法 是 忽略 
对 称 性 限制 ， 然 后 证 明 结 果 是 对 称 的 ， 正 如 要 求 的 那样 。 这 个 结果 的 另 一 种 推导 方式 显 式 地 利 
用 了 对 称 性 和 正定 性 的 限制 ， 可 以 在 Magnus and Neudecker (1999) 中 找到 。 结 果 是 符合 我 们 预 
想 情 况 的 ， 形 式 为 











2 人 二 六 ee 一 Hur)(zn 一 Harr) (2.122) 


这 个 结果 涉及 到 了 jwr， 因 为 这 是 关于 jw 和 允 的 联合 最 大 值 的 结果 。 注 意 久 wi 的 解 (2.121) 
与 mr 无 关 ， 因 此 我 们 可 以 首先 求 出 wrx， 然后 使 用 它 来 求 允 ML。 
如 果 我 们 估计 真实 概率 分 布下 最 大 似 然 解 的 期 望 ， 我 们 可 以 得 到 下 面 的 结果 


Epmr]= 4 (2.123) 


ES mr| = (2.124) 
我 们 看 到 对 于 均值 的 最 大 似 然 估计 的 期 望 等 于 实际 的 均值 。 然 而 ， 对 于 协 方差 的 最 大 似 然 估 计 
的 期 望 小 于 真正 的 值 ， 因 此 是 有 偏 的 。 我 们 可 以 定义 一 个 不 同 的 估计 值 忆 来 修正 这 个 误差 。 新 
的 估计 的 定义 


























N 
~ 1 
之 三 N_i (zn — pur) (Tn — pMr)” (2.125) 


n=1 


很 明显 ， 根 据 公式 (2.122) 和 公式 (2.124) ,期望 允 等 于 允 。 


2.3.5 ”顺序 估计 


我 们 关于 高 斯 分 布 的 参数 的 最 大 似 然 解 的 讨论 提供 了 一 个 方便 的 机 会 来 讨论 一 个 更 一 般 的 话 
题 : 最 大 似 然 的 顺序 估计 。 顺 序 的 方法 允许 每 次 处 理 一 个 数据 点 ， 然 后 丢弃 这 个 点 。 这 对 于 在 
线 应 用 很 重要 。 并 且 当 数据 集 相 当 大 以 至 于 一 次 处 理 所 有 数据 点 不 可 行 的 情况 下 ， 顺 序 方法 也 
很 重要 。 
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图 2.10: 两 个 相关 的 随机 变量 z 和 9 以 及 由 条 件 期 望 Elz | 9 给 出 的 回归 函数 1(0) 的 图 形 表 
示 。Robbins-Monro 算 法 提供 了 一 个 一 般 的 顺序 步骤 来 寻找 这 种 函数 的 根 0”*。 


考虑 公式 (2.121) 给 出 的 均值 的 最 大 似 然 佑 计 结 果 Lwri。 当 它 依赖 于 第 N 次 观察 时 ， 将 被 
记 作 AtX) 。 如 果 我 们 想 分 析 最 后 一 个 数据 点 zw 的 贡献 ， 我 们 有 


二 1] 

N 

HML 二 六 > 2 
n=1 





1 下 
一 ZN 六 一 Pn (2.120) 
= 
YN N HML 
N-1 1 N-1 
三 齐全 ) 十 去 (ZN 一 局 


N 


这 个 结果 有 一 个 很 好 的 意义 ， 如 后 面 所 述 。 在 观察 到 N - 1 个 数据 点 后 ， 我 们 已 经 把 /估计 
为 ni。 我 们 现在 观察 到 了 数据 点 zw ， 这 样 我 们 就 得 到 了 一 个 修正 的 估计 Mt) ， 这 个 估计 的 
获得 方式 为 : 把 旧 的 估计 沿 着 “错误 信号 "(zw - AD) 方向 移动 一 个 微小 的 量 ， 这 个 量 正比 
于 二 。 注 意 ， 随 着 N 的 增加 ， 后 续 数据 点 的 贡献 也 会 逐渐 变 小 。 

公式 (2.126) 的 结果 明显 与 公式 (2.121) 的 结果 相同 ， 因 为 这 两 个 公式 相等 。 但 是 ， 我 们 
不 总 是 能 够 使 用 这 种 方法 推导 出 一 个 顺序 的 算法 ， 因 此 我 们 要 寻找 一 个 更 加 通用 的 顺序 学 
习 的 方法 ， 这 就 引出 了 Robbins-Monro 算 法 。 考 虑 一 对 随机 变量 0 和 z， 它 们 由 一 个 联合 概率 分 
布 p(z,0) 所 控制 。 已 知 0 的 条 件 下 ，z 的 条 件 期 望 定义 了 一 个 确定 的 函数 (9)， 形 式 如 下 














f(0) = Elz|0|= /ac | 0) dz (2.127) 


图 2.10 给 出 了 图 形 化 的 说 明 。 通 过 这 种 方式 定义 的 函数 被 称 为 回归 通 数 (regression function) 。 

我 们 的 目标 是 寻找 根 全 使 得 (0*) = 0。 如 果 我 们 有 观测 z 和 9 的 一 个 大 数据 集 ， 那 么 我 们 
可 以 直接 对 回归 通 数 建 模 ， 得 到 根 的 一 个 估计 。 但 是 假设 我 们 每 次 观测 到 一 个 z 的 值 ， 我 们 
想 找 到 一 个 对 应 的 顺序 估计 方法 来 找到 多 。 下 面 的 解决 这 种 问题 的 通用 步骤 由 Robbins and 
Monro (1951) 给 出 。 我 们 假定 > 的 条 件 方差 是 有 穷 的 ， 因 此 


E[(z 一 廊 21g] < co (2.128) 


并 且 不 失 一 般 性 ， 我们 也 假设 当 9 > 0* 时 f(9) > 0， 当 9 < 人 多 时 76) < 0， 如 图 2.10 所 示 。 之 
后 ，Robbins-Monro 的 方法 定义 了 一 个 根 久 的 顺序 估计 的 序列 ， 由 下 式 给 出 




















bg = O(N-D) — ow_1z(0(N-))) (2.129) 
其 中 z(%()) 是 当 6 的 取 值 为 6 时 z 的 观测 值 。 系 数 {aw} 表 示 一 个 满足 下 列 条 件 的 正 数 序列 
Jim av =0 (2.130) 
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> aN = co (2.131) 


> ay < oo (2.132) 


可 以 证 明 由 公式 (2.129) 给 出 的 顺序 估计 确实 以 概率 1 收敛 于 根 (Robbins and Monro, 1951; 
Fukunaga, 1990) 。 注 意 ， 第 一 个 条 件 (2.130) 确保 了 后 续 的 修正 的 幅度 会 逐渐 变 小 ， 从 而 这 个 
过 程 可 以 收敛 于 一 个 极限 值 。 第 二 个 条 件 (2.131) 用 来 确保 算法 不 会 收敛 不 到 根 的 值 。 第 三 个 
条 件 (2.132) 保证 了 累计 的 噪声 具有 一 个 有 限 的 方差 ， 因 此 不 会 导致 收敛 失败 。 

现在 让 我 们 考虑 一 个 一 般 的 最 大 似 然 问题 如 何 使 用 Robbins-Monro 算 法 顺序 地 解决 。 根 据 定 
义 ， 最 大 似 然 解 0Mrz 是 负 对 数 似 然 函 数 的 一 个 驻 点 ， 因 此 满足 




















B71 
a 人 2 一 Inp(zn | 让 二 0 (2.133) 
交换 导数 与 求 和 和 ， 取 极限 NN 一 co， 我 们 有 
WR 8 
A 入 2 三 lnp(zn | 0) = Ey; |- 芳 ln p(z | 中 (2.134) 


因此 我 们 看 到 寻找 最 大 似 然 解 对 应 于 寻找 回归 函数 的 根 。 于 是 我 们 可 以 应 用 Robbins-Monro 方 
法 ， 此 时 它 的 形式 为 


O(N) OUV-D) 





9 本 
ON-1 FN1) | Inp(zw | 0 9)| (2.135) 


00 


作为 一 个 具体 的 例子 ， 我 们 再 次 考虑 高 斯 分 布 均值 的 顺序 估计 问题 。 在 这 种 情况 下 ， 参 
数 0 中 是 高 斯 分 布 均值 (让 的 估计 ， 随 机 变量 z 的 形式 为 





0 1 
A lnp(z | umr,0°) = (HM) (2.130) 
因此 z 的 分 布 是 一 个 高 斯 分 布 ， 均 值 为 -(4 一 KmL)/o ， 如 图 2.11 所 示 。 把 公式 (2.136) 代入 
公式 (2.135) ， 我 们 得 到 了 公式 (2.126) 的 单 变量 形式 ， 其 中 我 们 假定 选择 系数 an 的 形式 
为 ax = 先 。 注 意 ， 虽 然 我 们 刚 在 只 讨论 了 一 元 变量 的 情形 ， 同 样 的 找 术 ， 以 及 公式 (2.130) 
到 公式 (2.132) 给 出 的 关于 系数 an 的 限制 ， 同 样 适用 于 多 元 变量 的 情形 (Blum, 1965) 。 








2.3.6 ”高 斯 分 布 的 贝 叶 斯 推 岂 


最 大 似 然 框架 给 出 了 对 于 参数 多 和 允 的 点 估计 。 现 在 我 们 通过 引入 这 些 参 数 的 先 验 分 布 ， 介 
绍 一 种 贝 叶 斯 的 方法 。 首 先 ， 让 我 们 考虑 一 个 简单 的 例子 。 考 虑 一 个 一 元 高 斯 随机 变量 z， 我 们 
假设 方差 只 是 已 知 的。 我 们 的 任务 是 从 一 组 N 次 观测 x = {z1,……，,ZN} 中 推断 均值 4/。 似 然 函 
数 ， 即 给 定 /的 情况 下 ， 观 测 数据 集 出 现 的 概率 。 它 可 以 看 成 4 的 函数 ， 由 下 式 给 出 





人 | bo | (2.137) 
p H 17 nl|kH)= (2ro2) 3 902 n—H : 


我 们 再 次 强调 似 然 函数 p(x | 4) 不 是 1 的 概率 密度 ， 没 有 被 归 一 化 。 

我 们 看 到 ， 似 然 函数 的 形式 为 1 的 二 次 型 的 指数 形式 。 因 此 如 果 我 们 把 先 验 分 布 p(4) 选 成 高 
斯 分 布 ， 那 么 它 就 是 似 然 函数 的 一 个 共 斩 分 布 ， 因 为 对 应 的 后 验 概 率 是 两 个 U 的 二 次 函数 的 指数 
的 成 绩 ， 因 此 也 是 一 个 高 斯 分 布 。 于 是 我 们 令 先 验 概 率 分 布 为 


p(1) = N(n nool) (2.138) 
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p(z|1) 





图 2.11: 在 高 斯 分 布 的 情形 中 ， 图 2.10 所 示 的 回归 函数 的 形式 是 一 条 直线 ， 用 红色 标记 出 ， 其 中 9 对 应 
于 jmL。 在 这 种 情况 下 ， 随 机 变量 z 对 应 于 对 数 似 然 函 数 的 导数 ， 由 一 (z 一 jmz)/ 中 给 出 ， 定 义 了 回归 阴 
数 的 期 望 是 一 条 直线 ， 由 一 (4 一 jmz)/0 给 出 。 回 归 函 数 的 根 对 应 于 真实 的 均值 j。 











从 而 后 验 概率 为 
pp | x) x p(x | pW)p(n) (2.139) 
进行 诸如 对 指数 项 进行 完成 平方 项 等 简单 的 计算 ， 可 以 证 明 后 验 概率 的 形式 为 
plu|x)=N(n NAN;oN) (2.140) 
其 中 
o2 Noz2 
A pe (2.141) 
= = (2.142) 


ON 00 02 
其 中 i 是 4 的 最 大 似 然 解 ， 由 样本 均值 给 出 


N 
1 
HML = 六 Tn (2.143) 


n=1 


花 一 点 时 间 来 研究 后 验 概率 分 布 的 均值 和 方差 是 很 有 意义 的 。 首 先 ， 我 们 注意 到 由 公式 
(2.141) 给 出 的 后 验 分 布 的 均值 是 先 验 均值 Jo 和 最 大 似 然 解 1 的 折 中 。 如 果 观 测 数据 点 的 数 
量 N = 0， 那 么 与 我 们 想 的 一 样 ， 公 式 (2.141) 就 变 成 了 先 验 均值 。 对 于 N 一 co ， 后 验 均值 由 
最 大 似 然 解 给 出 。 类 似 地 ， 考 虑 公式 (2.142) 给 出 的 后 验 分 布 方差 的 结果 。 我 们 看 到 ， 根 据 方 
差 的 倒数 (被 称 为 精度 ) 来 表达 结果 是 很 自然 的 事情 。 另 外 ， 精 度 是 可 以 相 加 的 ， 因 此 后 验 概 
率 的 精度 等 于 先 验 的 精度 加 上 每 一 个 观测 数据 点 所 贡献 的 一 个 精度 。 当 我 们 增加 观测 数据 点 的 
数量 时 ， 精 度 持续 增加 ， 对 应 于 后 验 分 布 的 方差 持续 减少 。 没 有 观测 数据 点 ， 我 们 有 先 验 
的 方差 ， 而 如 果 数 据点 的 数量 N 一 co， 方 差 c% 趋 于 零 ， 从 而 后 验 分 布 在 在 最 大 似 然 解 附近 
变 成 了 无 限 大 的 尖峰 。 于 是 我 们 看 到 公式 (2.143) 给 出 的 4 的 最 大 似 然 结果 在 观测 数据 点 的 
数量 趋 于 无 穷 时 可 以 精确 地 由 贝 叶 斯 公式 恢复 。 还 要 注意 ， 对 于 有 限 的 N 值 ， 如 果 我 们 取 极 
限 o3 一 co， 先 验 的 方差 会 变 为 无 穷 大 ， 那 么 后 验 均 值 (2.141) 就 变 成 了 最 大 似 然 结果 ， 而 后 
验方 差 (2.142) 为 o% = 所 。 

图 2.12 说 明了 高 斯 分 布 均值 的 贝 叶 斯 推断 。 可 以 很 直接 地 把 这 个 结果 推广 到 已 知 方差 未 知 均 
值 的 D 维 高 斯 随机 变量 z 的 情况 。 

我 们 已 经 看 到 高 斯 分 布 均值 的 景 大 似 然 表达 是 如 何 转化 为 顺序 更 新 问题 的 。 在 顺序 更 新 的 框 
架 下 ， 观 测 到 NN 个 数据 点 之 后 的 均值 会 根据 以 下 两 个 量 进行 表达 : 观测 到 N 一 1 个 数据 点 之 后 的 
均值 以 及 数据 点 zn 的 贡献 。 实 际 上 ， 对 于 推断 问题 来 说 ， 如 果 从 一 个 顺序 的 观点 来 看 ， 那 么 贝 
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图 212: 高 斯 分 布 的 均值 的 贝 叶 斯 推断 ， 其 中 我 们 假设 方差 已 知 。 曲 线 展示 了 /上 的 先 验 概率 分 布 〈 标 
记 为 N = 0 的 曲线 ) ， 在 这 种 情况 下 ， 它 本 身 是 一 个 高 斯 分 布 。 同 时 给 出 的 还 有 随 着 数据 点 数量 N 的 增 
大 ， 公 式 (2140) 给 出 的 后 验 概率 分 布 。 数 据点 由 均值 为 08、 方 差 为 0.1 的 高 斯 分 布 生成 ， 先 验 分 布 的 均 
值 被 选择 为 0。 在 先 验 概率 分 布 和 似 然 函数 中 ， 方 差 都 被 设置 为 了 真实 值 。 





叶 斯 方法 就 变 得 非常 自然 了 。 为 了 在 高 斯 分 布 均值 推断 的 问题 中 说 明 这 一 点 ， 我 们 把 后 验 分 布 
中 最 后 一 个 数据 点 ZN 的 贡献 单独 写 出 来 ， 即 


N-—1 
pp | x) cx 欧 [Te | p(zn | 中 C.144) 
n=1 


方 插 号 中 的 项 是 观测 到 NN 一 1 个 数据 点 之 后 的 后 验 概率 分 布 (忽略 归 一 化 系数 ) 。 我 们 看 到 它 可 
以 被 看 成 一 个 先 验 分 布 ， 然 后 使 用 贝 叶 斯 定理 与 似 然 函数 (与 Tn 相关 ) 结合 到 了 一 起 ， 得 到 了 
观察 到 入 个 数据 点 之 后 的 后 验 概率 。 这 种 贝 叶 斯 推断 的 顺序 观点 是 非常 通用 的 ， 可 以 应 用 于 任 
何 观测 数据 独立 同 分 布 的 问题 中 。 

目前 为 止 ， 我 们 已 经 假定 数据 集 的 高 斯 分 布 的 方差 是 已 知 的 ， 我 们 的 目标 是 推断 均值 。 现 在 
假设 均值 是 已 知 的 ， 我 们 要 推 凯 方差 。 同 之 前 一 样 ， 如 果 我 们 选择 先 验 分 布 的 共 轿 形式 ， 那 么 
计算 将 会 得 到 极 大 的 简化 。 可 以 证 明 使 用 精度 ^ 三 去 来 进行 计算 是 最 方便 的 。 和 的 似 然 函 数 的 形 
式 为 


N 时 NE/ 
p(x | 入 ) = [ww， | ,A 1) ec A2 exp (3 i 一 | (2.145) 
n=1 n=1 
对 应 的 共 斩 先 验 因此 应 该 正比 于 人 的 寡 指 数 ， 也 正比 于 人 的 线性 函数 的 指数 。 这 对 应 于 Gamma 分 
布 ， 定 义 为 
Tr(a) 
这 里 T(a) 是 公式 (1.141) 定义 的 Gamma 函 数 ， 保 证 了 公式 (2.146) 被 正确 地 归 一 化 。 如 
果 a > 0， 那 么 Gamma 分 布 有 一 个 有 穷 的 积分 。 如 果 a > 1， 那 么 分 布 本 身 是 有 穷 的 。 图 2.13 给 出 
了 不 同 的 a 和 5b 的 情况 下 分 布 的 图 像 。4Gamma 分 布 的 均值 和 方差 为 


Gam( 和 |a,b) = 加 Xe 1 exp(—bA) (2.146) 














E[A] = ， (2.147) 
var[A]| = 五 (2.148) 


考虑 一 个 先 验 分 布 Gam( 和 | ao, 80)。 如 果 我 们 乘 以 公式 (2.145) 给 出 的 似 然 函数 ， 那 么 我 们 
得 到 后 验 分 布 本 
D( 入 | x) cx 和 ao 一 1 和 位 exp {mm 一 > pe 一 | (2.149) 


n=1 
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图 2.13: 对 于 不 同 的 参数 a 和 5， 公 式 (2.146) 定义 的 Gamma 分 布 Gam(A | a, 的 图 像 。 


我 们 可 以 把 它 看 成 形式 为 Gam( 和 | acw,pv) 的 Gamma 分 布 ， 其 中 


N 
QN = Qa0 十 可 (2.150) 
N 
1 N 
bN 一 bo 十 3 Den 一 人 2 = 二 bo 十 Fr (2.151) 


其 中 oy4 是 方差 的 最 大 似 然 估 计 。 注 意 ， 在 公式 (2.149) 中 ， 不 需要 始终 关注 先 验 分 布 的 归 一 
化 常数 和 似 然 函 数 ， 因 为 如 果 有 必要 的 话 ， 正 确 的 系数 可 以 在 最 后 使 用 公式 (2.146) 给 出 
的 Gamma 分 布 的 表达 式 求 出 。 

根据 公式 (2.150) ， 我 们 看 到 观测 N 个 数据 点 的 效果 是 把 系数 o 的 值 增加 令 。 因此 我 们 可 以 
把 先 验 分 布 中 的 参数 oo 看 成 200 个 * 有 效 ” 先 验 观 测 。 类 似 地 ， 根 据 公 式 (2.151) ， 我 们 看 到 个 
数据 点 对 参数 0 贡献 了 Ver ， 其 中 crr 是 方差 ， 因 此 我 们 可 以 把 先 验 分 布 中 的 参数 to 看 成 方差 
为 3 = 名 的 200 个 有效， * 先 验 观测 。 回忆 一 下 ， 我 们 对 于 狄 利克 雷 分 布 做 过 类 似 的 表述 。 这 些 
分 大 部 是 沸 数 族 分 布 的 例子 ， 我 们 会 看 到 ， 对 于 指数 族 分 布 来 说 ， 把 共 思 先 验 看 成 有 效 假想 数 
据点 是 一 个 很 通用 的 思想 。 

我 们 可 以 不 使 用 精度 进行 计算 ， 而 是 考虑 方 盖 本身。 这 种 情况 下 共 斩 先 验 被 称 为 
逆 Gamma 分 布 。 但 是 我 们 不 会 详细 地 讨论 这 个 分 布 ， 因 为 我 们 发 现 使 用 精度 来 进行 计算 更 加 方 


便 。 
现在 假设 均值 和 精度 都 是 未 知 的 。 为 了 找到 共 轿 先 验 ， 我 们 考虑 似 然 函 数 对 于 1 和 和 的 依赖 


2 


ee (2.152) 


我 们 现在 想 找到 一 个 先 验 分 布 p(y, 和 )， 它 对 于 1 和 X 的 依赖 与 似 然 函数 有 着 相同 的 函数 形式 。 于 
是 我 们 假设 先 验 分 布 的 形式 为 


pP(K, 入 ) cc | 和 sp (> 等) ee aM} 


-和 
其 中 c,d 和 6 都 是 常数 。 由 于 我 们 总 有 p(1,) = p(k | A)P(X)， 因 此 我 们 可 以 通过 观察 找 


到 p(y | 和 ) 和 p( 和 )。 特 别 地 ,我 们 看 到 p(y | 入) 是 一 个 高 斯 分 布 ， 这 个 高 斯 分 布 的 精度 是 的 一 个 
线性 函数 。p( 和 ) 是 一 个 Gamma 分 布 ， 因此 归 一 化 的 先 验 概率 的 形式 为 


DA) =N(p | HAo,(8A) ) Gam(X | a,b) C.154) 


(2.153) 
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图 2.14: 公式 (2.154) 给 出 的 正 态 -Gamma 分 布 在 参数 为 no = 0, 6 = 2,a = 5,b = 6 的 条 件 下 的 轮廓 线 。 





其 中 我 们 已 经 定义 了 新 的 常数 如 下 : yo = §,a = 于 ,= d- 锣 。 概 率 分 布 (2.154) 被 称 为 正 
态 -Gamma 分 布 或 者 高 斯 -Gamma 分 布 ， 图 像 如 图 2.14 所 示 。 注 意 这 不 是 一 个 独立 的 /的 高 斯 分 布 
与 一 个 的 Gamma 分 布 的 简单 乘积 ， 因 为 /的 精度 是 的 线性 函数 。 即 使 我 们 选择 一 个 4 和 和》 相互 
独立 的 先 验 ， 后 验 概率 中 ，/ 的 精度 和 》 的 值 也 会 相互 耦合 。 

对 于 D 维 向 量 z 的 多 元 高 斯 分 布 N(z | 1, A-!)， 假 设 精度 已 知 ， 则 均值 的 共 郝 先 验 分 布 仍 
然 是 高 斯 分 布 。 对 于 已 知 均值 未 知 精度 矩阵 A 的 情形 ， 共 斩 先 验 是 Wishart 分 布 ， 定 义 为 











v—D-1 


W(A|W,r)= BIA| 3 exp (rw-n)) (2.155) 





其 中 z 被 称 为 分 布 的 自由 度 degrees of freedom 数 量 ，W 是 一 个 D x D 的 标量 和 矩阵，Tr(-) 表 示 和 矩阵 
的 迹 。 归 一 化 系数 B 为 


D :NK 
vr vpD DD-L) v+1—i 
B 三 2 工 2.150 
(Wr) = |W| :( ?re )) 150) 


与 之 前 一 样 ， 定 义 协 方差 矩阵 本 身 (而 不 是 精度 ) 的 先 验 分 布 也 可 以 ， 这 会 推导 出 逆 -Wishart 分 
布 ， 但 是 我 们 不 会 详细 讨论 这 一 点 。 如 果 均 值 和 精度 都 是 未 知 的 ， 那 么 类 似 于 一 元 变量 的 推理 
方法 ， 共 恩 先 验 为 

p(4, A | Lo, b, W, v) N(p | Ho; (BA) ')W(A | W, 2) (2.157) 


这 被 称 为 正 态 -Wishart 分 布 或 者 高 斯 -Wishart 分 布 。 








2.3.7 ”学 后 {t 分 布 

我 们 已 经 看 到 高 斯 分 布 的 精度 的 共 轿 先 验 是 Gamma 分 布 。 如 果 我 们 有 一 个 一 元 高 斯 分 
布 N(z | 4,7) 和 一 个 Gamma 先 验 分 布 Gam(7 | a,5)， 我 们 把 精度 积分 出 来 ， 我 们 可 以 得 到 z 的 
边缘 分 布 ， 形 式 为 





vel 0d)= {Nedsr!) Gom(r | ob) dr 
0 
oo bae(—br)7a—1 元 有 到 
人 T(a) oe | 1)*} dr (2.158) 


- 蕴 ( 人 二 b+ etd 
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图 2.15: 对 于 不 同 的 wv 值 ， 公 式 〈2.159) 给 出 的 学 生 ! 分 布 的 图 像 ， 其 中 J = 0 且 和 = 1。 极 限 y -co 对 应 于 
一 个 高 斯 分 布 ， 均 值 为 x， 精 度 为 和 。 


其 中 我 们 已 经 进行 了 变量 替换 > = 7[b 十 扩 如-]。 遵 循 惯例 ， 我 们 定义 新 的 参数 /= 2 和 入 = 名 。 
使 用 新 的 参数 ， 分 布 p(z | Ka, 吕 的 形式 为 


vl 加 /21 一 关 一 
St(z | 4, N,v) = 二 (去 ) [ 十 2 (2.159) 
这 被 称 为 学 生 t 分 布 (Student's tdistribution) 。 参 数 X 有 时 被 称 为 { 分 布 的 精度 (precision) ， 即 
使 它 通常 不 等 于 方差 的 倒数 。 参 数 v 被 称 为 自由 度 (degrees of freedom) ， 它 的 作用 如 图 2.15 所 
示 。 对 于 v = 1 的 情况 , 欠 布 变 为 了 柯 西 分 布 (Cauchy distribution) ， 而 在 极限 v 一 co 的 情况 
下 , 夫 布 St(zx | 4, 入 ,v) 变 成 了 高 斯 分 布 N(z | 4, 入 1)， 均 值 为 n， 精 度 为 ^。 

根据 公式 (2.158) ,我 们 看 到 学 生 t 分 布 可 以 这 样 通过 将 无 限 多 个 同 均值 不 同 精度 的 高 斯 分 
布 相 加 的 方式 得 到 。 这 可 以 表示 为 无 限 的 高 斯 混合 模型 (高 斯 混合 模型 将 会 在 2.3.9 节 详细 讨 
论 ) 。 结 果 是 一 个 概率 分 布 ， 这 个 分 布 通常 有 着 比 高 斯 分 布 更 长 的 “尾巴 5， 正如 我 们 在 图 2.15 中 
看 到 的 那样 。 这 给 出 了 t 分 布 的 一 个 重要 性 质 : 鲁 棒 性 (robustness) ， 意 思 是 对 于 数据 集 里 的 几 
个 离 群 点 outlier 的 出 现 ，t 分 布 不 会 像 高 斯 分 布 那样 敏感 。t 分 布 的 鲁 棒 性 在 图 2.16 中 说 明 。 图 中 
对 比 了 高 斯 分 布 和 t 分 布 的 最 大 似 然 解 。 注 意 ,， 份 布 的 最 大 似 然 解 可 以 使 用 期 望 最 大 化 (EM) 
算法 求 出 。 这 里 我 们 看 到 少量 的 离 群 点 对 于 人 纷 布 的 影响 要 远 远 小 于 高 斯 分 布 。 在 实际 应 用 中 ， 
离 群 点 可 能 产生 于 生成 数据 的 过 程 ， 这 个 过 程 对 应 于 一 个 有 着 长 尾 的 概率 分 布 ， 也 可 能 产生 于 
误 标记 的 数据 。 和 鲁 棒 性 也 是 回归 问题 的 一 个 重要 性 质 。 毫 不 惊讶 地 说 ， 回 归 的 最 小 平方 的 方法 
并 不 具有 和 鲁 棒 性 ， 因 为 它 对 应 于 (条件 ) 高 斯 分 布下 的 最 大 似 然 解 。 通 过 让 回归 模型 基于 一 个 
长 尾 的 概率 分 布 (例如 t 分 布 ) ， 我 们 可 以 得 到 一 个 更 加 鲁 棒 的 模型 。 

如 果 我 们 回 到 公式 (2.158) ， 代 入 替换 的 参数 v = 2a, 入 = ?以 及 7 = 也， 我 们 看 到 t 分 布 可 
以 写成 下 面 的 形式 


sz l=/ N(x | 1 (AD Gam(n | 和 dn (2.160) 


之 后 ,我 们 可 以 把 这 个 结果 推广 到 多 元 高 斯 分 布 N (x | 4, 人 A) 来 得 到 对 应 的 多 元 学 生 t 分 布 ， 形 式 
为 


























St(z | ,A,rv) = [ N(x | ,nA) !) Gam(n | | dv (2.161) 
5 2 2 
使 用 与 一 元 变量 相同 的 方法 ， 我 们 可 以 求 出 这 个 积分 ， 即 
T( 有 二 区 IAB | 
S A |i oe 
t(Z | ,A,rv) TE) [ra 牛 7 ( ) 
其 中 DD 是 x 的 维度 ，A? 是 平方 马 氏 距离 ， 定 义 为 
A2=(z—n) A(z—h) (2.163) 
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图 2.16: 与 高 斯 分 布 相 比 ， 学 生 纷 布 具 有 和 鲁 棒 性 的 例子 。(@) 从 一 个 高 斯 分 布 中 抽取 的 30 个 数据 点 的 直方 
图 ， 以 及 得 到 的 最 大 似 然 拟 合 。 红 色 曲 线 表 示 使 用 t 分 布 进行 的 拟 合 ， 绿 色 曲 线 〈 大 部 分 隐藏 在 了 红色 曲 
线 后 面 ) 表示 使 用 高 斯 分 布 进行 的 拟 合 。 由 于 t 分 布 将 高 斯 分 布 作为 一 种 特例 ， 因 此 它 给 出 了 与 高 斯 分 布 
几乎 相同 的 解 。(b) 同 样 的 数据 集 ， 但 是 多 了 三 个 异常 数据 点 。 这 幅 图 展示 了 高 斯 分 布 (绿色 曲线 ) 是 如 
何 被 异常 点 强烈 地 干扰 的 ， 而 t 分 布 (红色 曲线 ) 相对 不 受 影响 。 





这 是 多 元 变量 形式 的 学 生 纷 布 ， 满 足下 面 的 性 质 














glz] = 1 如 果 v > 1 (2.164) 

cov[z] = A-l 如 果 v > 2 (2.165) 
vw—2 

modelz] 三 几 (2.160) 








对 应 地 ， 可 以 得 到 一 元 变量 的 结果 。 


2.3.8 周期 变量 


无 论 是 高 斯 分 布 本 身 ， 还 是 它 作为 更 复杂 的 概率 模型 的 基石 ， 高 斯 分 布 在 实际 应 用 中 都 非常 
重要 。 但 是 ， 有 些 情况 下 ， 对 于 连续 变量 ， 使 用 高 斯 分 布 建 模 并 不 合适 。 一 个 重要 的 情况 是 周 
期 变量 ， 这 在 实际 应 用 中 经 常 出 现 。 

周期 变量 的 一 个 例子 是 某 个 特定 的 地 理 位 置 的 风向 。 例 如 ， 我 们 可 以 测量 许多 天 的 风向 值 ， 
然后 希望 使 用 一 个 参数 分 布 来 总 结 风向 的 规律 。 另 一 个 例子 是 日 历时 间 ， 其 中 我 们 可 能 感 兴 
0 
方便 。 

我 们 可 能 试图 这 样 处 理 周期 变量 : 选择 一 个 方向 作为 原点 ， 然 后 应 用 传统 的 概率 分 布 (例如 
高 斯 分 布 ) 。 但 是 ， 这 种 方法 的 结果 将 会 强烈 依赖 于 原点 的 选择 。 例 如 ,假设 我 们 有 两 个 观 
测 ， 分 别 位 于 % = 1* 和 02 = 359”， 然 后 我 们 使 用 一 个 标准 的 一 元 高 斯 分 布 建 模 。 如 果 我 们 把 
原点 选择 为 0"， 那 么 这 个 数据 集 的 样本 均值 为 180" ， 标 准 差 为 179" 。 而 如 果 我 们 把 原点 选择 
在 180" ， 那 么 均值 为 0"， 标 准 差 为 1*。 很 明显 ， 我 们 需要 找到 一 种 特别 的 方法 来 处 理 周 期 变 


里 





让 我 们 考虑 估计 周期 变量 的 观测 数据 集 D = {91,.….,0N} 的 均值 的 问题 。 从 现在 开始 ， 我 们 
假定 6 的 单位 为 弧度 。 我 们 已 经 看 到 ， 简 单 的 平均 值 2 二 计生 强烈 依赖 与 坐标 系 的 选择 。 为 了 找 
到 均值 的 一 个 不 变 的 度量 ， 我 们 注意 到 观测 可 以 被 看 做 单位 圆 上 的 点 ， 因 此 可 以 被 描述 为 
一 个 二 维 单位 向 量 z1,.….,xN， 其 中 zn = 1 且 n = 二 N， 如 图 217 所 示 。 我 们 可 以 对 向 
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X4 








图 2.17: 将 周期 变量 的 值 9 表示 为 单位 贺 上 的 二 维 向 量 zn。 同 时 给 出 的 还 有 这 些 向 量 的 均值 3。 


量 {zn} 求 平均 ， 可 得 、 
B= Dh (2.167) 


然后 找到 这 个 平均 值 对 应 的 角度 9。 很 明显 ， 这 个 定义 将 会 保证 均值 的 位 置 与 极 坐 标 原点 的 选择 
无 关 。 注 意 ，5 通 常 位 于 单位 圆 的 内 部 。 这 个 观测 ee = (cos On, sin On,), 
我 们 可 以 把 样本 均值 的 笛 卡 尔 坐 标 写 成 2 = (7cos0,7sin0)。 代 入 公式 (2.167) ， 然 后 令 分 
量 zi 和 z2 相 等 ， 可 得 


Zl =7Fc0s0 一 Deosb,, zo 一 Fsin 0 = Din (2.168) 





求 两 者 的 比值 ， 使 用 恒等式 tan 9 = 闻 9， 我 们 可 以 求 出 59， 即 


| Li (2.169) 
> Sos On 


1 对 于 周期 变量 ， 如 果 恰 当 定 义 一 个 概率 分 布 ， 最 大 似 然 方法 可 以 很 自然 地 得 
这 个 结果 。 

我 们 现在 考虑 高 斯 分 布 对 于 周期 变量 的 一 个 推广 : von Mises 分 布 。 这 里 ， 我 们 应 该 把 我 们 
的 注意 力 集中 在 一 元 分 布 ， 虽 然 周 期 分 布 也 可 以 在 任意 维度 的 超 球面 中 找到 。 对 于 一 个 关于 周 
期 分 布 的 详细 讨论 ， 可 以 参考 Mardia and Jupp (2000) 。 

感召 惯例 ， 我 们 考虑 的 周期 概率 分 布 p(0) 的 周期 为 2r。0 上 的 任何 概率 密度 p(0) 一 定 非 负 ， 
积分 等 于 1， 并 且 一 定 是 周期 性 的 。 因 此 ，P(O) 一 定 满足 下 面 三 个 条 件 : 





p(0)>0 (2.170) 
27 
[ p(0) d9 = 1 (2.171) 
0 
p(0 + 27) = p(0) (2.172) 


根据 公式 (2.172) ， 可 以 证 明 对 于 任意 整数 MM， 都 有 p(6 + M27) = p(0)。 

我 们 可 以 很 容易 地 得 到 一 个 类 似 高 斯 的 分 布 满足 这 三 个 性 质 。 考 虑 两 个 变 
量 z = (z1, 7x2) 的 高 斯 分 布 ， 均 值 为 = (wp2)， 协 方差 矩阵 为 习 = o2T， 其 中 I 是 一 个 2 x 2 的 
单位 和 矩阵。 因此 有 
rt 2 2 (2.173) 





1 
p(T1,72) = ss expt 


270 
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图 2.18: von Mises 分 布 可 以 通过 公式 (2.173) 给 出 的 二 维 高 斯 分 布 推 导出 来 ， 它 的 密度 轮廓 线 被 画 成 了 
蓝 色 ， 概 率 的 条 件 是 红色 的 单位 圆 。 


概率 p(z) 为 常数 的 轮廓 线 是 圆 形 ， 如 图 2.18 所 示 。 现 在 假设 我 们 考虑 这 个 分 布 沿 着 一 个 固定 半径 
的 圆周 的 值 。 之 后 通过 构造 ， 这 个 分 布 将 会 具有 周期 性 ， 虽 然 没 有 被 归 一 化 。 我 们 可 以 确定 这 
个 分 布 的 形式 通过 从 第 卡尔 坐标 (x1, zz) 转 化 为 极 坐 标 (” 0) 的 方式 得 到 ， 即 
ZX1 = 7 cosb, 2Z2 =7sing (2.174) 

我 们 也 把 均值 映射 到 极 坐 标 系 中 ， 即 

HL 三 7ocos00， M2 = rosin Oo (2.175) 
接 下 来 ， 我 们 把 这 些 变 换代 入 二 维 高 斯 分 布 (2.173) 中 ， 然 后 把 分 布 限 制 在 单位 圆 r" = 1 上 。 注 
意 ， 我 们 只 对 概率 分 布 对 于 9 的 相关 性 感 兴 趣 。 我 们 把 注意 力 放 在 高 斯 分 布 的 指数 项 上 ， 可 得 


1 
= tr cosb 一 rocosbo) + (rsinO — rosin O00)?} 
0 
1 
一 -53t1 加 7 一 2rocosbcosb — 2r0 sin 0 sin 00} (2.170) 
Oo 


= 总 cos(9 一 00) 二 常数 





其 中 常数 表示 与 6 无 关 的 项 ， 并 且 我 们 使 用 了 下 面 的 三 角 恒 等 式 
cos2 A+sin2 A=1 (2.177) 


cos Acos B+sinAsinB=cos(A—B) (2.178) 
如 果 我 们 定义 m = 号 ， 我 们 就 得 到 了 在 单位 圆 " = 1 上 的 概率 分 布 p(0) 的 最 终 表 达 式 


p(0 | 00,m) exp{m cos(0 — 00)} (2.179) 


1 

2x1o(m) 
这 被 称 为 von Mises 分 布 ， 或 者 环形 正 态 分 布 (circular normal) 。 这 里 ， 参 数 00 对 应 于 分 布 的 均 
值 ， 而 m， 被 称 为 concentration 参 数 ， 类 似 于 高 斯 分 布 的 方差 的 倒数 (精度) 。 公 式 (2.179) 的 
归 一 化 系数 包含 项 10(m)， 它 是 零 阶 修 正 的 第 一 类 Bessel 隙 数 (Abramowitz and Stegun, 1965) ， 





1 27 
To(m) = exp{m cos 0} dO (2.180) 
对 于 大 的 m 值 ， 分 布 逼 近 高 斯 分 布 。 图 2.19 给 出 了 von Mises 分 布 的 图 像 ， 图 220 给 出 了 函 
数 J0(m) 的 图 像 。 
现在 考虑 von Mises 分 布 的 参数 名 和 参数 m 的 最 大 似 然 佑 计 。 对 数 似 然 函 数 为 
N 
lnp(D | 00,m) = —NIn(27x) — Ni1n Io(m)+ m》_ cos(O 一 00) (2.181) 
n=1 
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nA/4 






————— m=5,00=7/4 37/4 


—— m=1, 0 = 37/4 


nd 
——— m=1, 00=37/4 























图 2.19: 对 于 两 个 不 同 的 参数 ，von Mises 分 布 的 图 像 。 左 图 给 出 了 笛 卡尔 坐标 系 中 的 图 像 ， 右 图 给 出 了 对 
应 的 极 坐标 系 中 的 图 像 。 























3000 1 
2000 
Lo(m) A(m) 0.5 
1000 
0 0 
0 5 10 0 5 10 
m m 


图 2.20: 公式 (2.180) 定义 的 Bessel 函 数 J0(m) 的 图 像 ， 以 及 公式 (2.186) 定义 的 函数 4(m) 的 图 像 。 
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令 其 关于 0 的 导数 等 于 零 ， 我 们 有 





N 
>， sin(On, — 00) = 0 (2.182) 
也 一 | 
为 了 解 出 90， 我 们 可 以 使 用 三 角 恒等式 
sin(A— B)= cos Bsin A—cosAsinB (2.183) 
从 而 我 们 可 以 得 到 | 
WE on | | (2.184) 


这 是 我 们 之 前 在 公式 (2.169) 中 得 到 的 结果 ， 那 里 我 们 把 它 看 成 二 维 笛 卡尔 空间 的 观测 的 均 


值 。 
类 似 地 ， 关 于 m 最 大 化 公式 (2.181) ， 使 用 看 (m) = 五 (m) (Abramowitz and Stegun, 
1965) ,我 们 有 


1 N 
A(mmr) = 守 0 莹 0M7) (2.185) 
其 中 我 们 已 经 用 最 大 似 然 解 凡人 进行 了 变量 赫 换 (回忆 一 下 我 们 正在 关于 9 和 m 进 行 联合 最 优 
化 ) ， 并 且 我 们 定义 
1(m) 
To(m) 
图 2.20 给 出 了 通 数 4(m) 的 图 像 。 使 用 公式 (2.178) 给 出 的 三 角 恒 等 式 ， 我 们 可 以 把 公式 
(2.185) 写成 下 面 的 形式 


N N 
4(maxrr) = (> 本 cos 0 人 十 (3 > sin 0 sin OM (2.187) 


n=1 n=1 


(2.180) 





4(7P) 


公式 (2.187) 的 右 侧 很 容易 求 出 ， 并 且 函 数 4(m) 可 以 数值 地 求 逆 。 

为 了 完整 性 ， 我 们 简要 提 一 下 其 他 的 建立 周期 概率 分 布 的 方法 。 最 简单 的 方法 是 使 用 观测 的 
直方 图 。 这 种 方法 中 ， 极 坐标 被 划分 成 了 固定 大 小 的 箱子 。 这 种 方法 的 优点 是 简洁 并 且 灵 活 ， 
但 是 这 种 方法 也 有 着 巨大 的 局 限 性 。 我 们 将 在 2.5 节 详细 讨论 直方 图 方法 时 看 到 这 一 点 。 男 一 种 
方法 类 似 于 von Mises 分 布 ， 都 是 首先 考察 欧 几 里 得 空间 的 高 斯 分 布 。 但 是 ， 这 种 方法 在 单位 圆 
上 做 积分 ， 而 不 是 把 单位 圆 的 半径 当成 概率 密度 的 条 件 (Mardia and Jupp, 2000) 。 但 是 ， 这 使 
得 概率 分 布 的 形式 更 加 复杂 ， 因 此 我 们 不 会 详细 讨论 。 最 后 一 种 方法 的 思想 是 ， 在 实数 轴 上 的 
任何 合法 的 分 布 (例如 高 斯 分 布 ) 都 可 以 转化 成 周期 分 布 。 转 化 的 方法 是 ， 持 续 地 把 宽度 
为 27 的 区 间 上 映射 为 周期 变量 (0,2x)， 这 相当 于 把 实数 轴 沿 着 单位 圆 进行 缠绕 。 与 之 前 一 样 ， 
与 von Mises 分 布 相 比 ， 这 种 方法 最 终 求 出 的 概率 分 布 在 计算 上 更 加 复杂 。 

von Mises 分 布 的 一 个 局 限 性 是 这 个 分 布 是 单 峰 的 。 通 过 将 多 个 von Mises 分 布 混 合 ， 我 们 可 
以 得 到 一 个 灵活 的 框架 ， 来 对 能 够 处 理 多 个 峰值 的 周期 变量 进行 建 模 。Lawrence et al. (2012) 
给 出 了 一 个 机 器 学 习 中 使 用 了 von Mises 分 布 的 例子 。 关 于 回归 问题 中 条 件 概率 密度 的 建 模 ， 可 
以 参考 Bishop and Nabney (1996) 。 

















2.3.9 ”混合 高 斯 模型 


虽然 高 斯 分 布 有 一 些 重要 的 分 析 性 质 ， 但 是 当 它 遇 到 实际 数据 集 时 ， 也 会 有 巨大 的 局 限 性 。 
考虑 图 2.21 给 出 的 例子 。 这 个 数据 集 被 称 为 “ 老 忠实 间 欣 喷泉 "数据 集 ， 由 美国 黄石 国家 公园 的 老 
忠实 间 欣 喷泉 的 272 次 喷发 的 测量 数据 组 成 。 每 条 测量 记录 包括 喷发 持续 了 几 分 钟 ( 横 轴 ) 和 距 
离 下 次 喷发 间隔 了 几 分 钟 ( 纵 轴 ) 。 我 们 看 到 数据 集 主 要 聚集 在 两 大 堆 中 ， 一 个 简单 的 高 斯 分 
布 不 能 描述 这 种 结构 ， 而 两 个 高 斯 分 布 的 线性 硬 加 可 以 更 好 地 描述 这 个 数据 集 的 特征 。 








81 
wwaibbt.com DODDDDODOD 





























100 100 
80 80 
60 60 
1 : | 3 4 3 6 1 6 


图 2.21: 老 忠实 间歇 喷泉 数据 点 ， 其 中 蓝 色 曲线 给 出 了 常数 概率 密度 的 轮廓 线 。 左 图 是 一 个 单一 的 高 斯 概 
率 分 布 ， 已 经 使 用 最 大 似 然 法 根据 数据 进行 了 调 参 。 注 意 ， 这 个 概率 分 布 未 能 描述 数据 中 的 两 个 聚集 区 
域 ,并且 把 大 部 分 的 概率 质量 放 在 了 中 心 区域 ， 而 这 个 区 域 的 数据 相对 稀 玖 。 右 图 是 两 个 高 斯 概率 分 布 
进行 线性 组 合 得 到 的 概率 分 布 ， 已 经 使 用 第 9 章 将 要 介绍 的 方法 使 用 最 大 似 然 的 方式 根据 数据 进行 了 调 
参 ， 它 给 出 了 关于 数据 的 一 个 更 好 的 表示 。 





2(Z) 


化 


图 2.22: 一 维 高 斯 混合 分 布 的 例子 。 蓝 色 曲线 给 出 了 三 个 高 斯 分 布 〈 使 用 某 个 系数 进行 了 缩放 ) ， 红 色 曲 
线 表示 它们 的 和 。 


通过 将 更 基本 的 概率 分 布 (例如 高 斯 分 布 ) 进行 线性 组 合 的 这 样 的 又 加 方法 ， 可 以 被 形式 化 
为 概率 模型 ， 被 称 为 混合 模型 (mixture distributions) (McLachlan and Basford, 1988; McLachlan 
and Peel, 2000) 。 在 图 2.22 中 ， 我 们 看 到 高 斯 分 布 的 线性 组 合 可 以 给 出 相当 复杂 的 概率 密度 形 
式 。 通 过 使 用 足够 多 的 高 斯 分 布 ， 并 且 调 节 它 们 的 均值 和 方差 以 及 线性 组 合 的 系数 ， 几 乎 所 有 
的 连续 概率 密度 都 能 够 以 任意 的 精度 近似 。 

于 是 我 们 考虑 KK 个 高 斯 概率 密度 的 又 加 ， 形 式 为 


K 
p(z) = >_ neN(z | px, Dr) (2.188) 


k=1 


这 被 称 为 混合 高 斯 (mixture of Gaussians) 。 每 一 个 高 斯 概率 密度 N(x | jx, x) 被 称 为 混合 分 
布 的 一 个 成 分 (component) ， 并 且 有 自己 的 均值 / 礁 和 协 方差 2。 图 2.23 给 出 了 具有 3 个 成 分 的 
混合 高 斯 分 布 的 轮廓 线 和 曲面 。 

在 本 节 中 ， 我 们 令 混 合 模型 的 每 个 分 量 都 是 高 斯 分 布 ， 来 说 明 混 合 模型 的 框架 。 更 一 般 地 ， 
混合 模型 可 以 是 其 他 类 型 的 概率 分 布 的 线性 组 合 。 例 如 ， 在 9.3.3 节 中 ， 我 们 会 考虑 伯 努 利 分 布 
的 混合 ， 作 为 离散 变量 混合 模型 的 一 个 例子 。 

公式 (2.188) 的 参数 六 被 称 为 混合 系数 (mixing coefficients) 。 如 果 我 们 对 公式 (2.188) 的 
两 侧 关 于 z 进 行 积分 ， 然 后 注意 到 p(z) 和 各 个 高 斯 成 分 都 是 归 一 化 的 ， 我 们 可 以 得 到 











K 
上 而 =1 (2.189) 
k=1 


并 且 ， 给 定 W(z | jx)， 满 足 p(x) > 0 这 一 要 求 的 充分 条 件 是 对 于 所 有 的 k 都 有 7 > 0。 把 这 个 
与 条 件 (2.189) 结合 ， 我 们 有 
0<As<1 (2.190) 
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0.5 




















图 2.23: 二 维 空间 中 3 个 高 斯 分 布 混 合 的 例子 。(q 每 个 混合 分 量 的 常数 概率 密度 轮廓 线 ， 其 中 三 个 分 量 分 
别 被 标记 为 红色 、 蓝 色 和 绿色 ， 且 混合 系数 的 值 在 每 个 分 量 的 下 方 给 出 。@) 混 合 分 布 的 边缘 概率 密 
度 p(Z) 的 轮廓 线 。(9 概 率 分 布 p(z) 的 一 个 曲面 图 。 


于 是 我 们 看 到 混合 系数 满足 概率 的 要 求 。 
根据 概率 的 加 和 规则 和 乘积 规则 ， 边 缘 概 率 密度 为 


K 
p(x) = >_ p(k)p(z | k) (2.191) 
三 二 


这 等 价 于 公式 (2.188) ， 其 中 我 们 把 mk = p(k) 看 成 选择 第 k 个 成 分 的 先 验 概率 ， 把 密 
度 N(z | j,k) = p(x | 上) 看 成 以 为 条 件 的 x 的 概率 。 正 如 我 们 在 后 面 章节 中 将 会 看 到 的 那 
样 ， 后 验 概率 p(% | z) 起 着 一 个 重要 作用 ， 它 也 被 称 为 责任 (responsibilities) 。 根 据 贝 叶 斯 定 
理 ， 后 验 概 率 可 以 表示 为 


加 zx | k) 

~ Dp(Dp(z1)) (2.192 
NpN(z | pgp, Dk) 

DriN(z | pu D1) 


我 们 将 在 第 9 章 更 加 详细 地 讨论 混合 分 布 的 概率 表达 。 
高 斯 混合 分 布 的 形式 由 参数 r,n 和 2 控制 ， 其 中 我 们 令 r 三 {r TEA 三 
{A UK} 且 于 三 {21,..…. ,>k}。 一 种 确定 这 些 参 数值 的 方法 是 使 用 最 大 似 然 法 。 根 据 公式 
(2.188) ， 对 数 似 然 函 数 为 





N K 
Inp(X | 7, 1, >) 于 > ln (Srve, | m2 | (2.193) 
n=1 


其 中 X = {z1,.….,zN}。 我 们 立刻 看 到 现在 的 情形 比 一 元 高 斯 分 布 复 杂 得 多 ， 因 为 对 数 中 存在 
一 个 求 和 式 。 这 就 导致 参数 的 最 大 似 然 解 不 再 有 一 个 封闭 形式 的 解析 解 。 一 种 最 大 化 这 个 
似 然 函数 的 方法 是 使 用 迷 代 数值 优化 方法 (Fletcher, 1987; Nocedal and Wright, 1999; Bishop and 
Nabney, 2008) 。 另 一 种 方法 是 使 用 一 个 被 称 为 期 望 最 大 化 (expectation maximization) 的 强大 
的 框架 ， 这 将 在 第 9 章 详细 讨论 。 


2.4 指数 族 分 布 

我 们 目前 为 止 在 本 章 中 研究 的 概率 分 布 (高 斯 混合 分 布 除 外 ) 都 是 一 大 类 被 称 为 指数 
族 (exponential family) 分 布 的 概率 分 布 的 具体 例子 (Duda and Hart 1973; Bernardo and Smith, 
1994) 。 指 数 族 分 布 的 成 员 有 许多 共同 的 重要 性 质 ， 并 且 以 某 种 程度 的 一 般 性 下 讨论 这 些 性 质 
是 很 有 启发 性 的 。 
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参数 为 7 的 变量 z 的 指数 族 分 布 定义 为 具有 下 面 形式 的 概率 分 布 的 集合 
p(z | 7) =h(2)g(n) exp{n ulz)} C.194 
其 中 z 可 能 是 标量 或 者 向 量 ， 可 能 是 离散 的 或 者 是 连续 的 。 这 里 n 被 称 为 概率 分 布 的 自然 参数 


(natural parameters) ，&(zZ) 是 zZ 的 某 个 函数 。 函 数 %(7) 可 以 被 看 成 系数 ， 它 确保 了 概率 分 布 是 
归 一 化 的 ， 因 此 满足 





oo) 人 exp{f77u(z)} dz=1 (2.195) 
如 果 z 是 离散 变量 ， 那 么 上 式 中 的 积分 就 要 替换 为 求 和 。 
首先 ， 我们 给 出 一 些 本 章 中 讨论 过 的 概率 分 布 的 例子 ， 然 后 证 明 它们 确实 是 指数 族 分 布 的 成 
员 。 首 先 考虑 伯 努 利 分 布 
放 守 | Bed(2 | (Ll (2.190) 
把 右 侧 表示 成 指数 的 对 数 ， 我 们 有 


plz|H)=exp{rlnp+ (1— 7)ln(l — 1)} 


-0 -em {or ( s) :| C.197 


与 公式 (2.194) 比较 ， 我 们 可 以 看 出 
n= ln (二) (2.198) 


工 一 从 





从 中 我 们 可 以 解 出 4， 得 到 / = c(7)， 其 中 
加 1 
Ee exp(—”) 


被 称 为 logistic sigmoid 函 数 。 因 此 我 们 可 以 使 用 公式 (2.194) 给 出 的 标准 形式 把 伯 努 利 分 布 写成 
下 面 的 形式 


o(n) (2.199) 


p(x | 4) = 0(—n) exp(nz) (2.200) 


其 中 我 们 使 用 了 等 式 1 一 o(m) = o( 一 )， 这 可 以 从 公式 (2.199) 中 很 容易 地 证 明 出 来 。 与 公式 
(2.194) 进行 比较 ， 我们 有 





U(Z) 一 了 (2.201) 
h(x)=1 (2.202) 
g(7) = 0(—) (2.203) 
接 下 来 考虑 单一 观测 x 的 多 项 式 分 布 ， 形 式 为 
M M 
p(x |p)= [i = exp 伺 zpln | (2.204) 
k=1 k= 
其 中 z = (zx1,.….,xM) 。 与 之 前 一 样 ， 我们 可 以 把 它 写成 公式 (2.194) 的 标准 形式 ， 即 
p(z | 1) = exp(n 2) (2.205) 
其 中 jx = In yk， 并 且 我 们 定义 了 n = (m1,… ,mM) *。 再 次 与 公式 (2.194) 比较 ， 我 们 有 
u(x)=2 (2.200) 
h(xz)=1 (2.207) 
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g(n)=1 (2.208) 
注意 参数 不 是 相互 独立 的 ， 因 为 参数 1 要 满足 下 面 的 限制 


M 


| (2.209) 


k=1 
因此 给 定 任意 M 一 1 个 参数 jw:， 剩 下 的 参数 就 固定 了 。 在 某 些 情况 下 ， 去 掉 这 个 限制 比较 方 
便 。 此 时 ,我 们 只 用 MM 一 1 个 参数 来 表示 这 个 分 布 。 我 们 可 以 这 样 做 : 使 用 公式 (2.209) 的 关 
系 ， 把 Lx 用 剩余 的 {kx} 表示 ， 其 中 = 1,.…,M 一 1， 这 样 就 只 剩 下 了 MM -1 个 参数 。 注 意 ， 剩 
余 的 参数 仍然 满足 下 面 的 限制 


M—1 
0O<pm<1, 2,<1 C.210) 
k=1 


使 用 公式 (2.209) 给 出 的 限制 ， 这 种 表达 方式 下 多 项 式 分 布 变 成 了 


M 
exp pa zr ln | 
k=1 


MI 一 1 M-1 M-—1 
= exp | >， Tk ln Wx ( 一 站 ln ( 一 | (2.211) 
k=1 k=1 k=1 
1 











我 们 现在 令 
In Kk = 2.212 
( = 5 Mk ( ) 
从 中 我 们 可 以 解 出 wx。 首先 两 侧 对 k 求 和 和， 然后 整理 ， 回 带 ， 可 得 
Be (2.213) 


2 下村 2 exp(7;) 


这 被 称 为 softmax 遂 数 ， 或 者 归 一 化 指数 (normalized exponential) 。 在 这 个 表达 方式 的 形式 下 ， 
多 项 式 分 布 的 形式 为 











M-1 -1 
D(Z |7)= ( 十 cl exp(1 x) (2.214) 
k=1 
这 是 指数 族 分 布 的 标准 形式 ， 其 中 参数 向 量 n = (m1,.……. ,mM-1,0)”。 在 这 个 指数 族 分 布 中 
uzX)=Z (2.215) 
h(z)=1 (2.210) 
M-1 和 
g(7) = ( 十 ct (2.217) 
k=1 
最 后 ， 让 我 们 考虑 高 斯 分 布 。 对 于 一 元 高 斯 分 布 ， 我 们 有 
0、 二. 有 1 2 
p(x | 41,0)= Caron e °{ De (z— J) } (2.218) 
2 1 2 
一 本 e °{ 5 5T ”十 5 pp } (2.219) 


85 
wwaibbt.com DODDODODOD 


在 经 过 一 些 简 单 的 推导 后 ， 它 可 以 转化 为 公式 (2.194) 给 出 的 标准 指数 族 分 布 的 形式 ， 其 中 


7 = (过 | (2.220) 
3 
uo) = (已 (2.221) 
h(x) = (27)-3 (2.222) 
g(n) = (—2m2)3 exp (总 ) (2.223) 


2.4.1 最 大 似 然 与 充分 统计 量 


让 我 们 考虑 用 最 大 似 然 法 估计 公式 (2.194) 给 出 的 一 般 形式 的 指数 族 分布 的 参数 向 量 / 的 问 
题 。 对 公式 (2.195) 的 两 侧 关于 / 取 梯 度 ， 我 们 有 


vg(m) / htz) exp{nT (2)} dz 


























(2.224) 
可 Ma) exp{n i n(x)}u(z) dz =0 
重新 排列 各 项 ， 然 后 再 次 使 用 公式 (2.195) ， 可 得 
-v0 = 9(n) /re)epforulojjulo) dw = Elu(e) (2.225) 
于 是 我 们 可 得 
—V Ing(n) = Elu(z2)] (2.220) 


注意 ，u(z) 的 协 方差 可 以 根据 g(n) 的 二 阶 导数 表达 ， 对 于 高 阶 矩 的 情形 也 类 似 。 因 此 ， 如 果 我 
们 能 够 对 一 个 来 自 指数 族 分 布 的 概率 分 布 进行 归 一 化 ， 那 么 我 们 总 能 够 通过 简单 的 求 微 分 的 方 
式 找 到 它 的 矩 。 

现在 考虑 一 组 独立 同 分 布 的 数据 X = {21,.… ,ZNj。 对 于 这 个 数据 集 ， 似 然 函 数 为 


N 
p(X |n) (HU 用 (Zn 中 oo N exp (ue) (2.227) 
令 lnp( 头 |) 关于 mn] 的 导数 等 于 零 ， 我 们 可 以 得 到 最 大 似 然 估计 wz 满足 的 条 件 
-Ving(mmr) = 去 27 u(zn) (2.228) 


原则 上 可 以 通过 解 这 个 方程 来 得 到 Arr。 我 们 看 到 最 大 似 然 估计 的 解 只 通过 > ，w(zn) 对 数据 产 
生 依赖 ， 因 此 这 个 量 被 称 为 分 布 (2.194) 的 充分 统计 量 (sufficient statistic) 。 我 们 不 需要 存储 
整个 数据 集 本 身 ， 只 需要 存储 充分 统计 量 的 值 即 可 。 例 如 ， 对 于 伯 努 利 分 布 ， .函数 wz ) 就 等 
于 z， 因 此 我 们 只 (需要 存储 数据 点 {zn} 的 和 即 可 。 而 对 于 高 斯 分 布 ，u(z) = (z,z2) 7 ， 因 此 我 们 
应 该 同时 存储 {zz} 的 和 以 及 {z2} 的 和 。 

如 果 我 们 考虑 极限 N 一 co， 那么 公式 (2.228) 的 右 侧 变 成 了 [w(z)]， 因 此 通过 与 公式 
(2.226) 比较 ， 我 们 可 以 看 到 在 这 个 极限 的 情况 下 ，7Mzr 与 真实 值 7 相 等 。 

2 这 种 充分 性 对 于 贝 叶 斯 推断 也 成 立 ， 但 是 我 们 要 把 关于 这 一 点 的 讨论 推迟 到 第 8 

。 那 时 ， 我们 已 经 有 了 图 模型 的 知识 ， 因 此 能 够 更 深刻 地 理解 这 些 重要 的 概念 。 
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242 共 斩 先 验 


我 们 已 经 多 次 遇 到 共 恩 先 验 的 概念 。 例 如 在 伯 努 利 分 布 中 ， 共 恩 先 验 是 Beta 分 布 。 在 高 斯 分 
布 中 ,均值 的 共 恩 先 验 是 高 斯 分 布 ， 精 度 的 共 斩 先 验 是 Wishart 分 布 。 一 般 情 况 下 ， 对 于 一 个 给 
定 的 概率 分 布 p(z | 岂 ， 我 们 能 够 寻找 一 个 先 验 p(7) 使 其 与 似 然 画 数 共 斩 ， 从 而 后 验 分 布 的 函数 
形式 与 先 验 分 布 相同 。 对 于 指数 族 分 布 (2.194) 的 任何 成 员 ， 都 存在 一 个 共 斩 先 验 ， 可 以 写成 
下 面 的 形式 

p(n | Xv) = f(x, rv)g(n)” exp{rn Xx} (2.229) 


其 中 f(x 是 归 一 化 系数 ，g(m) 与 公式 (2.194) 中 的 含义 相同 。 为 了 证 明 这 个 确实 是 共 斩 先 
验 ， 让 我 们 把 先 验 分 布 (2.229) 与 似 然 函 数 (2.227) 相 乘 ， 得 到 后 验 概率 (忽略 归 一 化 系 
数 ) ， 形 式 为 


n=1 


N 
p(n | X, Xv) x 9m) exp 人 " 03 u(zn) 十 x | (2.230) 


这 再 次 与 先 验 分 布 (2.229) 取得 了 相同 的 函数 形式 ， 从 而 证 明了 共 轿 性 。 此 外 ， 我 们 看 到 参 
数 v 可 以 看 成 先 验 分 布 中 假想 观测 的 有 效 观测 数 。 给 定 Xx 的 情况 下 ， 每 个 假想 观测 都 对 充分 统计 
量 w(z) 的 值 有 贡献 。 


2.4.3 无 信息 先 验 


在 某 些 概率 推断 的 应 用 中 ， 我 们 可 能 有 一 些 先 验 知识 ， 可 以 方便 地 通过 先 验 概率 分 布 表达 出 
来 。 例 如 ， 如 果 先 验 分 布 令 变 量 的 某 些 值 的 概率 为 零 ， 那 么 后 验 分 布 也 将 会 使 那些 值 的 概率 为 
零 ， 与 后 续 的 数据 观测 无 关 。 但 是 ， 在 许多 情形 下 ， 我 们 可 能 对 分 布 应 该 具有 的 形式 几乎 
完全 不 知道 。 这 时 ， 我 们 可 以 寻找 一 种 形式 的 先 验 分 布 ， 被 称 为 无 信息 先 验 (noninformative 
prior) 。 这 种 先 验 分 布 的 目的 是 尽量 对 后 验 分 布 产生 尽 可 能 小 的 影响 (Jeffreys, 1946; Box and 
Tiao, 1973; Bernardo and Smith, 1994) 。 这 有 时 被 称 为 “让 数据 自己 说 话 ”。 

如 果 我 们 有 一 个 由 参数 和 控制 的 分 布 p(x | 和 )， 那 么 我 们 可 以 尝试 假设 先 验 分 布 p( 入 ) = 常数 作 
为 一 个 合适 的 先 验 分 布 。 如 果 和 是 一 个 有 KK 个 状态 的 离散 变量 ， 这 就 相当 于 把 每 种 状态 的 先 验 概 
率 设置 为 志 。 然 而 ， 在 连续 参数 的 情况 下 ， 这 种 方法 有 两 个 潜在 的 困难 。 第 一 个 困难 是 ， 如 
果 的 取 值 范围 是 无 界 的 ， 那 么 先 验 分 布 无 法 被 正确 地 归 一 化 ， 因 为 对 和 的 积分 是 发 散 的 。 
这 样 的 先 验 分 布 被 称 作 反常 的 (improper) 。 实 际 应 用 中 ， 如 果 对 应 的 后 验 分 布 是 正常 的 

(proper) ， 即 它 可 以 正确 地 被 归 一 化 ， 那 么 可 以 使 用 反常 先 验 分 布 。 例 如 ， 如 果 我 们 假设 高 斯 
分 布 的 均值 的 先 验 分 布 为 均匀 分 布 ， 那 么 一 旦 我 们 观测 到 至 少 一 个 数据 点 ， 均 值 的 后 验 分 布 就 
会 是 正常 的 。 

第 二 个 困难 产生 于 概率 非 线性 变量 的 概率 密度 的 变换 ， 由 公式 (1.27) 给 出 。 如 果 函 
数 h( 和 ) 是 常数 ， 并 且 我 们 进行 变量 替换 =， 那么 h(n) = AP 也 会 是 常数 。 然 而 ， 如 果 我 们 
令 概 率 密度 p、( 入 ) 为 常数 ， 那 么 根据 公式 (1.27) ，7 的 概率 密度 为 











d 
pn(n) = pM(N) 国 = pA(W)2n x n (2.231) 


从 而 n 的 概率 密度 就 不 再 是 常数 了 。 如 果 我 们 使 用 最 大 似 然 佑 计 ， 那 么 就 不 会 有 这 种 问题 ， 因 为 
似 然 函 数 p(z | 入 是 的 一 个 简单 的 函数 ， 因 此 我 们 可 以 自由 使 用 任意 方便 的 对 参数 操作 的 方 
法 。 但 是 ， 如 果 我 们 要 选择 一 个 常数 的 先 验 概率 分 布 ， 那 么 我 们 必须 注意 对 于 参数 要 使 用 一 个 
合适 的 表达 形式 。 

这 里 我 们 考虑 无 信息 先 验 的 两 个 简单 的 例子 (Berger, 1985) 。 首 先 ， 如 果 概 率 密度 的 形式 


p(Z1A) = f(r— nh) (2.232) 


那么 参数 /被 称 为 位 置 参 数 (location parameter) 。 这 一 类 概率 分 布 具有 平移 不 变性 (translation 
invariance) ， 因 为 如 果 我 们 把 z 平 移 一 个 常数 ， 得 到 Z = z 十 c， 那 么 


2D(Z| 内 =JC 一 内 (2.233) 
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其 中 我 们 已 经 定义 有 = 4 十 c。 因 此 新 变量 的 概率 密度 的 形式 与 原 变 量 相 同 ， 因 此 概率 密度 与 原 
点 的 选择 无 关 。 我 们 想 要 选择 一 个 能 够 反映 这 种 平移 不 变性 的 先 验 分 布 ， 因 此 我 们 选择 的 先 验 
概率 分 布 要 对 区 间 4 < yj < B 以 及 平移 后 的 区 间 4 一 c < 4 < B 一 c 贼 予 相 同 的 概率 质量 。 这 说 明 


B Bec B 
) p(4) dy = 人 D(UA) dy = / 2 一 c) dp (2.234) 
A A-—c A 


并 且 由 于 这 必须 对 于 任意 的 A 和 B 的 选择 都 成 立 ， 因 此 我 们 有 
pl1— ©) = pK) (2.235) 


这 表明 p( 由 是 常数 。 位 置 参数 的 一 个 例子 是 高 斯 分 布 的 均值 WK。 正 如 我 们 已 经 看 到 的 那样 ， 
这 种 情况 下 /的 共 轿 先 验 分 布 是 一 个 高 斯 分 布 p(4 | no,ci) = NU | p10,02)， 并 且 通 过 取 极 
限 o2 一 ceo， 我 们 得 到 了 一 个 无 信息 先 验 。 事 实 上 ， 根 据 公 式 (2.141) 和 公式 (2.142) ， 我 们 
可 以 看 到 这 种 极限 情况 下 ， 在 /的 后 验 分 布 中 ， 先 验 的 贡献 消失 了 。 

作为 第 二 个 例子 ， 考 虑 概率 分 布 的 形式 为 


pz |o)= (=) (2.230) 


其 中 oc > 0。 注 意 ， 如 果 f(z) 被 正确 归 一 化 ， 那 么 这 是 一 个 归 一 化 的 概率 密度 。 参 数 o 被 称 为 缩 
放 参 数 (scale parameter) ， 概 率 密度 具有 缩放 不 变性 (scale invariance) 因为 如 果 我 们 把 x 缩放 
一 个 常数 ， 得 到 2 = cx， 那么 


p215) = $7 (F) (2.237) 


其 中 我 们 已 经 定义 了 5 = co。 这 个 变换 对 应 于 单位 的 改变 。 例 如 如 果 z 表 示 长 度 ， 那 么 这 个 变换 
可 能 从 米 ` 变 为 " 千 米 。 我 们 希望 选择 一 个 能 够 反映 这 种 缩放 不 变性 的 先 验 分 布 。 如 果 我 们 考虑 
一 个 区 间 4 < o < B， 以 及 一 个 缩放 的 区 间 人 4 < o < 2， 那么 先 验 分 布 应 该 给 这 两 个 区 间 赋 予 
相同 的 概率 质量 。 因 此 我 们 有 


B 


B B 1 1 
| p(o) do = | p(o) do 号) PLzO)- do (2.238) 
由 于 这 必须 对 于 任意 的 4 和 B 的 选择 都 成 立 ， 因 此 我 们 有 
p(o)=p (3) (2.239) 
cC / c 


因此 p(o) x 二。 注意 ， 这 是 一 个 反常 先 验 分 布 ， 因 为 对 于 0 < o < co 上 的 概率 分 布 的 积分 是 发 
散 的 。 有 时 把 缩放 参数 的 先 验 分 布 用 参数 的 对 数 的 概率 密度 表达 更 方便 。 使 用 公式 (1.27) 的 概 
率 密度 变换 规则 ， 我 们 看 到 p(no) = 常数 。 因 此 ， 对 于 这 个 先 验 分 布 ， 在 区 间 1 < o < 10 和 区 
间 10 <o < 100 以 及 区 间 100 < o < 1000 上 具有 相同 的 概率 质量 。 

缩放 参数 的 一 个 例子 是 高 斯 分 布 的 标准 差 c， 在 我 们 考虑 了 位 置 参 数 / 之 后 。 这 是 因为 


SX 
N(x | 1,0°) x oo exp |: ( | (2.240) 


其 中 站 = xz -AN。 正如 之 前 讨论 过 的 那样 ， 通 常 更 方便 的 做 法 是 用 精度 = 点 计算 ， 而 不 
是 用 o 本 身 。 使 用 概率 密度 的 变换 规则 ， 我 们 看 到 一 个 概率 密度 p(o) x + 对 应 于 和 上 的 形 
式 为 p(A) x 于 的 概率 分 布 。 我 们 已 经 看 到 ，》 的 共 罗 先 验 是 公式 (2.146) 给 出 的 Gamma 分 
布 Gam(A | a0, 0b0)。 无 信息 先 验 在 ao = bo = 0 的 特殊 情况 下 得 到 。 与 之 前 一 样 ， 如 果 我 们 检查 公 
式 (2.150) 和 公式 (2.151) 给 出 的 的 后 验 概率 分 布 的 结果 ， 我 们 看 到 对 于 ao = bo = 0， 后 验 
分 布 只 与 数据 相关 ， 而 与 先 验 分 布 无 关 。 
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图 2.24: 直方 图 方法 用 于 密度 估计 的 一 个 例子 ， 其 中 ，50 个 数据 点 组 成 的 数据 集 由 绿色 曲线 代表 的 概率 分 
布 生成 。 方 法 基于 的 是 公式 (2.241) ， 公 用 的 箱 宽度 A 在 图 上 已 经 标 出 。 图 中 给 出 了 不 同 的 A 取 值 所 对 
应 的 情形 。 





25 非 参数 化 方法 


本 章 中 ， 我 们 已 经 关注 过 的 概率 分 布 都 有 具体 的 函数 形式 ， 并 且 由 少量 的 参数 控制 。 这 些 参 
数 的 值 可 以 由 数据 集 确定 。 这 被 称 为 概率 密度 建 模 的 参数 化 (parametric) 方法 。 这 种 方法 的 一 
个 重要 局 限 性 是 选择 的 概率 密度 可 能 对 于 生成 数据 来 说 ， 是 一 个 很 差 的 模型 ， 从 而 会 导致 相当 
差 的 预测 表现 。 流 入 ， 如 果 生 成 数据 的 过 程 是 多 峰 的 ， 那 么 这 种 分 布 不 可 能 被 高 斯 分 布 描述 ， 
因为 它 是 单 峰 的 。 

在 最 后 一 全 ， 我 们 考虑 一 些 非 参数 化 (nonparametric) 方法 进行 概率 密度 估计 。 这 种 方法 对 
概率 分 布 的 形式 进行 了 很 少 的 假设 。 这 里 ， 我 们 把 注意 力 集中 于 简单 的 频率 学 家 方法 。 但 是 ， 
读者 应 该 意识 到 ， 非 参数 化 贝 叶 斯 方法 正在 吸引 越 来 越 多 的 研究 者 的 兴趣 (Walker et al., 1999; 
Neal, 2000; Miiller and Quintana, 2004; Teh et al., 2006) 。 

首先 让 我 们 讨论 密度 估计 的 直方 图 方法 。 这 种 方法 我 们 之 前 已 经 使 用 过 。 例 如 ， 图 1.11 的 边 
缘分 布 和 条 件 分 布 ， 以 及 图 2.6 的 中 心 极限 定理 。 这 里 ， 我 们 更 加 详细 地 探索 直方 图 密度 估计 的 
性 质 。 我 们 集中 于 一 元 连续 变量 z 的 情形 。 标 准 的 直方 图 简单 地 把 z 划 分 成 不 同 的 宽度 为 Ai 的 箱 
子 ， 然 后 对 落 在 第 i 个 箱子 中 的 x 的 观测 数量 mi; 进行 计数 。 为 了 把 这 种 计数 转换 成 归 一 化 的 概率 
0 0 








Ti 


”NA 


从 中 很 容易 看 出 Jp(z) dz = 1。 这 给 出 了 概率 密度 p(z) 的 一 个 模型 ， 这 个 概率 密度 在 每 个 箱子 
的 宽度 内 是 常数 ， 并 且 通 常 箱子 的 宽度 选 成 相同 的 ， 即 A; = 人 。 

在 图 2.24 中 ， 我 们 给 出 了 一 个 直方 图 概率 密度 佑 计 的 例子 。 这 里 数据 满足 绿色 曲线 的 概率 分 
布 ， 它 由 两 个 高 斯 分 布 混合 而 成 。 同 时 给 出 的 还 有 三 个 直方 图 密度 估计 的 例子 ， 分 布 对 应 对 于 
箱子 宽度 A 的 三 种 不 同 的 选择 。 我 们 看 到 ， 当 人 非常 小 的 时 候 (最 上 方 的 图 ) ， 最 终 的 概率 密 
度 模 型 有 很 多 尖 刺 ， 有 很 多 结构 没有 出 现在 生成 数据 的 概率 分 布 中 。 相 反 ， 如 果 人 过 大 (最 下 
方 的 图 ) ， 那 么 最 终 的 概率 模型 会 过 于 平滑 ， 结 果 无 法 描述 绿色 曲线 的 双 峰 性 质 。 当 和 A 取 一 个 
中 等 大 小 的 值 时 〈 中 间 的 图 ) ， 可 以 得 到 最 好 的 结果 。 原 则 上 ， 一 个 直方 图 概率 密度 模型 也 依 
赖 于 箱子 边缘 位 置 的 选择 ， 但 是 这 对 于 结果 的 影响 通常 会 小 于 A 的 值 的 选择 。 

注意 ， 与 之 前 讨论 过 的 方法 不 同 ， 直 方 图 方法 具有 下 面 的 性 质 : 一 旦 直方 图 被 计算 出 来 ， 数 
据 本 身 就 被 丢弃 了 ， 这 当 数 据 量 很 大 的 时 候 会 很 有 优势 。 并 且 ， 直 方 图 方法 也 很 容易 应 用 到 数 
据 顺 序 到 达 的 情形 。 

在 实际 应 用 中 ， 直 方 图 方法 对 于 快速 地 将 一 维 或 者 二 维 的 数据 可 视 化 很 有 用 ， 但 是 并 不 适用 
于 大 多 数 概率 密 度 佑 计 的 应 用 。 一 个 明显 的 问题 是 佑 计 的 概率 密度 具有 不 连续 性 ， 这 种 不 连续 
性 是 因为 箱子 的 边缘 造成 的 ， 而 不 是 因为 生成 数据 的 概率 分 布 本 身 的 性 质 造成 。 直 方 图 方法 的 
男 一 个 主要 的 局 限 性 是 维 数 放 大 。 如 果 我 们 把 DD 维 空间 的 每 一 维 的 变量 都 划分 到 MM 个 箱子 中 ， 





pi (2.241) 
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那么 箱子 的 总 数 为 M?。 这 种 对 于 DD 的 指数 放大 是 维度 灾难 的 一 个 例子 。 在 高 维 空间 中 ， 如 果 
想 对 于 局 部 概率 密度 进行 有 意义 的 信 计 ， 那 么 需要 的 数据 量 是 不 可 接受 的 。 

但 是 ， 概 率 密度 估计 的 直方 图 方法 确实 告诉 了 我 们 两 个 重要 的 事情 。 第 一 ， 为 了 估计 在 某 个 
特定 位 置 的 概率 密度 ， 我 们 应 该 考虑 位 于 那个 点 的 某 个 邻 域内 的 数据 点 。 注 意 ， 局 部 性 的 概念 
要 求 我 们 假设 某 种 形式 的 距离 度量 ， 这 里 我 们 假设 的 是 欧 几 里 得 距离 。 对 于 直方 图 ， 这 种 邻 域 
的 性 质 由 箱子 定义 ， 并 且 有 一 个 自然 的 -平滑 参数 描述 局 部 区 域 的 空间 扩展 ， 即 这 里 的 箱子 宽 
度 。 第 二 ， 为 了 获得 好 的 结果 ， 平 滑 参 数 的 值 既 不 能 太 大 也 不 能 太 小 。 这 让 我 们 回忆 起 了 第 ! 章 
讨论 过 的 多 项 式 曲线 拟 合 问题 中 对 于 模型 复杂 度 的 选择 ， 那 里 多 项 式 的 阶 数 M 或 者 正则 化 参 
数 a， 被 优化 成 了 某 些 中 等 大 小 的 值 ， 既 不 太 大 也 不 太 小 。 有 了 这 些 认识 ,现在 让 我 们 讨论 两 
个 广泛 使 用 的 密度 估计 的 非 参数 化 方法 ， 核 估计 以 及 近邻 估计 。 与 简单 的 直方 图 方法 相 比 ， 这 
两 种 方法 对 于 维度 的 放大 有 着 更 好 的 适应 性 。 








251 核 密度 估计 

让 我 们 假设 观测 服从 万 维 空间 的 某 个 未 知 的 概率 密度 分 布 P(z)。 我 们 把 这 个 万 维 空间 选择 成 
欧 几 里 得 空间 ， 并 且 我 们 想 估计 p(z) 的 值 。 根 据 我 们 之 前 对 于 局 部 性 的 讨论 ， 让 我 们 考虑 包 
含 z 的 某 个 小 区 域 及 。 这 个 区 域 的 概率 质量 为 


一 人 四 dz (2.242) 


现在 我 们 假设 我 们 收集 了 服从 pz(z) 分 布 的 N 次 观测 。 由 于 每 个 数据 点 都 有 一 个 落 在 区 域 尽 中 的 
概率 P， 因 此 位 于 区 域 及 内 部 的 数据 点 的 总 数 玉 将 服从 二 项 分 布 

。 N! K N-_K 

Dn RIND P) (2.243) 
使 用 公式 (2.11) ,我 们 看 到 落 在 区 域内 部 的 数据 点 的 平均 比例 为 E[ 筷 ] = P。 类 似 地 ， 使 用 公 
式 (2.12) ， 我 们 看 到 ， 以 此 为 均值 的 概率 分 布 的 方差 为 var[ 入 ] = 245 马 。 对 于 大 的 N 值 ， 这 
个 分 布 将 会 在 均值 附近 产生 尖峰 ， 并 且 




















K~NP (2.244) 


但 是 ， 如 果 我 们 也 假定 区 域 尺 足 够 小 ， 使 得 在 这 个 区 域内 的 概率 密度 p(x) 大 致 为 常数 ， 那 么 我 
们 有 
Pp(z)V (2.245) 


其 中 Y 是 区 域 尺 的 体积 。 把 公式 (2.244) 和 公式 (2.245) 结合 ， 我 们 得 到 概率 密度 的 估计 ， 形 
式 为 

oo) = 寺 ; (2.246) 
注意 ， 公 式 (2.246) 的 成 立 依赖 于 两 个 相互 矛盾 的 假设 ， 即 区 域 尺 要 足够 小 ， 使 得 这 个 区 域内 
的 概率 密度 近似 为 常数 ， 但 是 也 要 足够 大 ， 使 得 落 在 这 个 区 域内 的 数据 点 的 数量 KK 能 够 足够 让 
二 项 分 布 达 到 尖峰 。 

我 们 有 两 种 方式 利用 (2.246) 的 结果 。 我 们 可 以 固定 开 然 后 从 数据 中 确定 Y 的 值 ， 这 就 
是 天 近 邻 方 法 。 我 们 还 可 以 固定 了 然后 从 数据 中 确定 玉 ， 这 就 是 核 方法 。 在 极限 一 co 的 情况 
下 ， 如 果 V 随 着 入 而 合适 地 收缩 ， 并 且 玉 随 着 N 增 大 ， 那 么 可 以 证 明 KK 近 邻 概率 密度 估计 和 核 方 
法 概率 密度 估计 都 会 收敛 到 真实 的 概率 密度 (Duda and Hart, 1973) 。 

我 们 先 详细 讨论 核 方 法 。 首 先 ， 我们 把 区 域 怀 取 成 以 x 为 中 心 的 小 超 立 方 体 ， 我 们 想 确定 概 
率 密度 。 为 了 统计 落 在 这 个 区 域内 的 数据 点 的 数量 ， 定 义 下 面 的 函数 比较 方便 


1 i <, i=1,...,D, 
k(u) = | (2.247) 
0， 其 他 情况 
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图 2.25: 公式 (2.250) 给 出 的 核 密度 模型 的 例子 。 数 据 集 与 图 2.24 中 用 于 说 明 直 方 图 方法 时 使 用 的 数据 集 
相同 。 我 们 看 到 ，h 的 作用 相当 于 平滑 参数 ， 如 果 它 被 设置 得 过 小 (最 上 方 的 图 ) ,结果 是 一 个 噪声 非常 
大 的 概率 模型 ， 而 如 果 它 被 设置 得 过 大 (最 下 方 的 图 ) ， 那 么 用 于 生成 数据 的 概率 分 布 (绿色 曲线 表 
示 ) 的 双 峰 性 质 被 抹 去 了 。h 取 某 个 中 等 大 小 的 值 时 ， 可 以 得 到 最 好 的 密度 模型 (中 间 的 图 ) 。 





这 表示 一 个 以 原点 为 中 心 的 单位 立方 体 。 通 数 k(w) 是 核 函 数 (kernel function) 的 一 个 例子 ， 
在 这 个 问题 中 也 被 称 为 Parzen 窗 (Parzen window) 。 根 据 公 式 (2.247) ， 如 果 数 据点 zn 位 于 
以 x 为 中 心 的 边 长 为 的 立方 体 中 ， 那 么 量 k(*) 的 值 等 于 1， 否 则 它 的 值 为 0。 于 是 ， 位 于 这 
个 立方 体内 的 数据 点 的 总 数 为 








K- 3 (= 和 这) (2.248) 
把 这 个 表达 式 代 入 公式 (2.246) ， 可 以 得 到 点 z 处 的 概率 密度 估计 
2(zZ) = 交 > jt (= 这 | (2.249) 
i 


推导 过 程 中 我 们 使 用 了 D 维 边 长 为 的 立方 体 的 体积 公式 V = h?。 使 用 函数 k(w) 的 对 称 性 ， 我 
们 现在 可 以 重新 表述 这 个 方程 。 之 前 我 们 把 这 个 函数 表述 为 以 z 为 中 心 的 一 个 立方 体 ， 但 是 现 
在 我 们 把 这 个 函数 表述 为 以 N 个 数据 点 zz 为 中 心 的 N 个 立方 体 。 

核 密度 佑 计 (2.249) 有 一 个 问题 ， 这 个 问题 也 是 直方 图 方法 具有 的 问题 中 的 一 个 。 这 个 问 
题 就 是 人 为 带 来 的 非 连 续 性 。 在 之 前 所 述 的 核 密度 估计 方法 中 就 是 立方 体 的 边界 。 如 果 我 们 选 
择 一 个 平滑 的 核 函 数 ， 那 么 我 们 就 可 以 得 到 一 个 更 加 光滑 的 模型 。 一 个 常见 的 选择 是 高 斯 核 函 
数 。 使 用 高 斯 核 函 数 ， 可 以 得 到 下 面 的 核 概 率 密度 模型 


_1 1 lz — zn 
Ptz) = 地 > Lar) ep{ 和 } (2.250) 


n=1 











其 中 表示 高 斯 分 布 的 标准 差 。 因 此 我 们 的 概率 密度 模型 可 以 通过 这 种 方式 获得 : 令 每 个 数据 点 
都 服从 高 斯 分 布 ， 然 后 把 数据 集 里 的 每 个 数据 点 的 贡献 相 加 ， 之 后 除 以 NV， 使 得 概率 密度 正确 
地 被 归 一 化 。 在 图 2.25 中 ， 我 们 把 模型 (2.250) 应 用 于 之 前 用 来 说 明 直 方 图 方法 的 数据 集 上 。 
我 们 看 到 ， 正 如 我 们 期 望 的 那样 ， 参 数 P 对 平滑 参数 起 着 重要 的 作用 。 小 的 /会 造成 模型 对 噪声 
过 于 敏感 ， 而 大 的 h 会 造成 过 度 平滑 ， 因 此 要 进行 一 个 折 中 。 与 之 前 一 样 ， 对 h 的 优化 是 一 个 模 
型 复杂 度 的 问题 ， 类 似 于 直方 图 概率 密度 估计 中 对 于 箱子 狂 赌 的 选择 ， 也 类 似 于 曲线 拟 合 问题 


中 的 多 项 式 阶 数 。 
我 们 可 以 任意 选择 公式 (2.249) 中 的 核 函数 ， 只 要 满足 下 面 的 条 件 
k(u)>0 (2.251) 
人 du=1 (2.252) 
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图 2.26: 使 用 与 图 2.24 和 图 2.25 相 同 的 数据 集 ， 进 行人 近邻 密度 估计 的 例子 。 我 们 看 到 参数 KK 控制 了 平滑 程 
度 ， 因 此 一 个 小 的 K 值 会 产生 一 个 噪声 相当 大 的 密度 模型 (最 上 方 的 图 ) ， 而 一 个 大 的 K 值 (最 下 方 的 
图 ) 平滑 掉 了 用 于 生成 数据 的 真实 概率 分 布 (绿色 曲线 ) 的 双 峰 性 质 。 


这 确保 了 最 终 求 得 的 概率 分 布 在 处 处 都 是 非 负 的 ， 并 且 积 分 等 于 1。 公 式 (2.249) 给 出 的 概率 密 
度 模型 被 称 为 核 密度 估计 ， 或 者 Parzen 估 计 。 它 由 一 个 很 大 的 优点 ， 即 不 需要 进行 训练 阶段 的 
计算 ， 因 为 训练 阶段 只 需要 存储 训练 集 即 可 。 然 而 ， 这 也 是 一 个 巨大 的 缺点 ， 因 为 估计 概率 
密度 的 计算 代价 随 着 数据 集 的 规模 线性 增长 。 


2.5.2 近邻 方法 


核 方 法 进行 概率 密度 估计 的 一 个 困难 之 处 是 控制 核 宽 度 的 参数 h 对 于 所 有 的 核 都 是 固定 的 。 
在 高 数据 密度 的 区 域 ， 大 的 h 值 可 能 会 造成 过 度 平滑 ， 并 且 破 坏 了 本 应 从 数据 中 提取 出 的 结构 。 
但 是 ， 减 小 的 值 可 能 导致 数据 空间 中 低 密 度 区 域 估计 的 噪声 。 因 此 ，h 的 最 优选 择 可 能 依赖 于 
数据 空间 的 位 置 。 这 个 问题 可 以 通过 概率 密度 的 近邻 方法 解决 。 

因此 我 们 回 到 局 部 概率 密度 估计 的 一 般 结 果 〈2.246) 。 与 之 前 固定 V 然 后 从 数据 中 确定 KK 的 
值 不 同 ， 我 们 考虑 固定 五 的 值 然后 使 用 数据 来 确定 合适 的 Y 值 。 为 了 完成 这 一 点 ， 我 们 考虑 一 
个 以 z 为 中 心 的 小 球体 ， 然 后 我 们 想 估 计 概 率 密度 p(z)。 并 且 ， 我 们 允许 球体 的 半径 可 以 自由 增 
长 ， 直 到 它 精确 地 包含 天 个 数据 点 。 这 样 ， 概 率 密度 p(z) 的 佑 计 就 由 公式 (2.246) 给 出 ， 其 
中 VY 等 于 最 终 球体 的 体积 。 这 种 方法 被 称 为 天 近邻 方法 。 图 2.26 给 出 了 对 于 不 同 参数 瓦 ， 使 用 与 
图 2.24 和 图 2.25 相 同 的 数据 集 ，K 近 邻 方法 的 结果 。 我 们 看 到 天 的 值 现在 控制 了 光滑 的 程度 ， 并 
且 与 之 前 一 样 ，K 的 最 有 选择 既 不 能 过 大 也 不 能 过 小 。 注 意 ， 由 KK 近邻 方法 得 到 的 模型 不 是 真 
实 的 概率 密度 模型 ， 因 为 它 在 整个 空间 的 积分 是 发 散 的 。 

在 本 章 的 最 后 ， 我 们 要 说 明 概 率 密 度 佑 计 的 天 近 邻 方法 如 何 推广 到 分 类 问题 。 为 了 完成 这 一 
点 ， 我们 把 KK 近邻 概率 密度 估计 方法 分 别 应 用 到 每 个 独立 的 类 别 中 ， 然 后 使 用 贝 叶 斯 定理 。 假 
设 我 们 有 一 个 数据 集 ， 其 中 Nk 个 数据 点 属于 类 别 Ck， 数 据点 的 总 数 为 N， 因 此 2 Nx = N。 如 
果 我 们 想 对 一 个 新 的 数据 点 x 进行 分 类 ， 那 么 我 们 可 以 画 一 个 以 x 为 中 心 的 球体 ， 这 个 球体 精确 
地 包含 天 个 数据 点 〈 无 论 属于 哪个 类 别 ) 。 假 设 球 体 的 体积 为 VY， 并 且 包 含 来 自 类 别 Ck 的 Kj 个 
数据 点 。 这 样 公式 (2.246) 提供 了 与 每 个 类 别 关 联 的 一 个 概率 密度 的 估计 


Kr 


pe (2.253) 
类 似 地 ， 无条件 概 率 密度 为 K 
人 (2.254) 
而 类 先 验 为 N 
a M (2.255) 
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图 2.27: (q 在 天 近邻 分 类 器 中 ， 一 个 新 的 数据 点 (黑色 菱形 表示 ) 根据 K 个 距离 最 近 的 训练 数据 点 的 主要 
类 别 确定 ， 其 中 五 = 3。(b) 在 最 近邻 (K = 1) 分 类 方法 中 ， 生 成 的 决策 边界 由 不 同类 别 的 点 对 的 垂直 
平分 线 组 成 的 超 平面 确定 。 
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图 2.28: 石油 数据 集中 的 200 个 数据 点 的 ze 与 zz 的 图 像 ， 其 中 红色 、 绿 色 、 蓝 色 的 点 分 别 对 应 于 薄片 
状 、 “ 环 状 、“ 同 质 状 的 类 别 。 同 时 给 出 的 是 对 于 不 同 开 值 ， 由 天 近邻 算法 给 出 的 输入 空间 的 类 别 。 


我 们 现在 使 用 贝 叶 斯 定理 将 公式 〈2.253) 、 公 式 (2.254) 和 公式 (2.255) 结合 起 来 ， 可 以 得 到 
类 别 的 后 验 概率 
p(T | Cr)p(Ck) _ Kr 


如 果 我 们 想 最 小 化 错误 分 类 的 概率 ， 那 么 我 们 可 以 把 测试 点 z 分 配给 有 着 最 大 后 验 概率 的 类 
别 ， 这 对 应 于 最 大 的 健 。 因 此 为 了 分 类 一 个 新 的 数据 点 ， 我 们 从 训练 数据 中 选择 天 个 最 近 的 数 
据点 ， 然 后 把 新 的 数据 点 分 配 为 这 个 集合 中 数量 最 多 的 点 的 类 别 。K = 1 的 特例 被 称 为 最 近邻 
规则 (nearest-neighbour rule) ， 因 为 测试 点 简单 地 被 分 类 为 训练 数据 集 里 距离 最 近 的 数据 点 的 
类 别 。 图 2.27 给 出 了 这 些 概念 的 说 明 。 

在 图 2.28 中 ， 我 们 给 出 了 第 一 章 介绍 的 石油 流 数 据 集 在 不 同 的 天 值 下 的 天 近邻 算法 的 结果 。 
正如 我 们 期 望 的 那样 ， 我 们 看 到 KK 控制 了 光滑 的 程度 ， 即 小 的 K 值 会 使 得 每 个 类 别 有 许 多 小 区 
域 ， 而 大 的 KK 值 会 产生 数量 较 少 面积 较 大 的 区 域 。 

最 近邻 (K = 1) 分 类 器 的 一 个 有 趣 的 性 质 是 在 极限 一 co 的 情况 下 ， 错 误 率 不 会 超过 最 
优 分 类 器 〈 即 使 用 真实 概率 分 布 的 分 类 器 ) 可 以 达到 的 最 小 错误 率 的 二 倍 (Cover and Hart， 
1967) 。 

正如 到 目前 为 止 讨 论 的 那样 ， 天 近邻 方法 和 核 密度 估计 方法 都 需要 存储 整个 训练 数据 。 如 果 
数据 集 很 大 的 话 ， 这 会 造成 很 大 的 计算 代价 。 通 过 建立 一 个 基于 树 的 搜索 结构 ， 使 得 (近似) 
近邻 可 以 高 效 地 被 找到 ， 而 不 必 遍 历 整个 数据 集 ， 这 种 计算 代价 可 以 被 抵消 ， 代 价 就 是 需要 进 
行 一 次 性 的 额外 计算 量 。 尽 管 这 样 ， 这 些 非 参数 化 方法 仍然 有 很 大 的 局 限 性 。 另 一 方面 ， 我 们 





(2.250) 
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已 经 看 到 ， 简 单 的 参数 化 模型 非常 受 限 ， 因 为 它们 内 能 表示 某 一 种 形式 的 概率 分 布 。 因 此 我 们 
需要 寻找 一 种 概率 密度 模型 ， 这 种 模型 需要 非常 灵活 ， 并 且 它 的 复杂 度 可 以 被 控制 为 与 训练 数 
据 的 规模 无 关 。 我 们 在 后 续 章 节 中 将 会 看 到 如 何 找到 这 种 概率 密度 模型 。 














2.6 练习 
(2.1) (*) 证 明 伯 努 利 分 布 (2.2) 满足 下 面 的 性 质 。 
1 
ea | (2.257) 
2 一 0 
Elz| = (2.258) 
vat[z| = x(1—) (2.259) 
证 明 , 一 个 服从 伯 努 利 分 布 的 随机 二 值 变 量 z 的 米 [z] 为 
Hlz|= -An 一 (1 一 An 下 (2.260) 


(22) (GY) 公式 (2.2) 给 出 的 伯 努 利 分 布 的 形式 关于 z 的 两 个 值 不 是 对 称 的 。 在 某 些 情况 
下 ， 更 方便 的 做 法 是 使 用 一 种 等 价 的 表示 形式 ze {一 1, 1}。 这 种 情况 下 ， 分 布 可 以 写成 


1 


p(z EH)= (S54) (二 (2.261) 
其 中 4.€ [一 1, 1]。 证 明 概 率 分 布 (2.261) 是 归 一 化 的 ， 并 且 计 算 它 的 均值 、 方 差 、。 

(2.3) ”CG*) 本 练习 中 ， 我 们 证 明 二 项 分 布 (2.9) 是 归 一 化 的 。 首 先 ， 使 用 从 NN 个 相同 的 
物体 中 选择 m 个 物体 的 组 合 数 的 定义 (2.10) ,证 明 


加 es ) 和 ) (2.262) 


使 用 这 个 结果 ， 利 用 数学 归纳 法 ， 证 明 


NV /N 

(1+2)* = > 的 Be (2.263) 
m=0 

这 被 称 为 二 项 定理 (binomial theorem) ， 并 且 对 于 所 有 的 实数 z 都 成 立 。 最 后 ， 证 明 二 项 分 布 

是 归 一 化 的 ， 即 


N 


N m N—m _ 
2 @ nu™(1— 4) =1 (2.264) 
可 以 这 样 证 明 : 首先 从 求 和 式 中 提出 一 个 因子 (1 一 内 > ， 然 后 使 用 二 项 定理 即 可 。 
(2.4) (xs#) 证 明 二 项 分 布 的 均值 由 公式 (2.11) 给 出 。 为 了 证 明 这 一 点 ， 可 以 对 公式 


(2.264) 两 侧 关于 / 求 微分 ， 然 后 整理 即 可 得 到 mm 的 均值 。 类 似 地 ， 通 过 对 公式 (2.264) 两 
侧 关于 / 求 两 次 微分 ， 使 用 公式 (2.11) 给 出 二 项 分 布 的 均值 ， 证 明 二 项 分 布 的 方差 由 公式 
(2.12) 给 出 。 

(25) (*) 在 本 练习 中 ， 我 们 证 明 由 公式 (2.13) 给 出 的 Beta 分 布 是 归 一 化 的 ， 即 公式 
(2.14) 成 立 。 这 等 价 于 证 明 





Ry 本 [(o)E(D) 
a—1 b—1 
AU 一 内 dA= Ea (2.265) 
根据 Gamma 函 数 的 定义 (1.141) ， 我 们 有 
一 = a-ld Se —y)ye ld 2.2 
LT(a)T(b) J P( 一 Z)Z p(—y)y 4 (2.260) 
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使 用 这 个 表达 式 ， 按 照 下 面 的 方法 证 明 公 式 (2.265) 。 首 先 把 对 于 y 的 积分 放 到 对 于 z 的 积分 的 
被 积 函 数 中 ， 然 后 进行 变量 替换 ! = y 二 x， 其 中 zx 固定。 之 后 交换 z 和 t 的 积分 顺序 ， 最 后 进行 变 
量 蔡 换 z = th， 其 中 4 是 固定 的 。 

(2.6) (*) 使 用 公式 (2.265) 的 结果 证 明 公 式 (2.13) 给 出 的 Beta 分 布 的 均值 、 方 差 、 众 
数 分 别 为 





a 




















= (2.267) 

ab 
Wl 0 
modelu] = 二 (2.269) 


(2.7) (tx*) 考虑 一 个 服从 公式 〈2.9) 给 出 的 二 项 分 布 的 随机 变量 z，/ 的 先 验 分 布 为 公式 
(2.13) 给 出 的 Beta 分 布 。 假 设 我 们 观察 到 了 m 次 z = 1， 以 及 ! 次 z = 0。 证 明 4 的 后 验 均值 位 于 
先 验 均 值 和 /的 最 大 似 然 估计 值 之 间 。 为 了 完成 这 一 点 ， 证 明 后 验 均值 可 以 写成 \ 乘 以 先 验 均值 
加 上 (1 - 入 ) 乘 以 最 大 似 然 估 计 ， 其 中 0 < 入 < 1。 这 表明 后 验 概率 分 布 的 概念 是 先 验 概率 分 布 和 
最 大 似 然 解 的 一 种 折 中 。 

(2.8) (*) 考虑 两 个 变量 z 和 y， 联 合 概率 分 布 为 p(z,y)。 证 明 下 面 两 个 结果 。 


Elz] 三 也 区 zz | Y]] (2.270) 












































var[z] = Eylvars lz | y]] + vary [Ezlz | Yl] (2.271) 


， 忆 ;|z | 四 表示 在 条 件 分 布 p(z | y) 下 ，z 的 期 望 。 条 件 方差 的 记号 与 此 类 似 。 

(2.9) (***) 在 本 练习 中 ， 我 们 使 用 数学 归纳 法 证 明 ， 公 式 (2.38) 给 出 的 狄 利克 雷 分 布 是 
归 一 化 的 。 我 们 已 经 在 练习 2.5 中 证 明了 狄 利克 雷 分 布 的 M = 2 的 特殊 情形 (Beta 分 布 ) 是 归 一 
化 的 。 我 们 现在 假设 狄 利克 雷 分 布 对 于 M - 1 个 变量 是 归 一 化 的 ， 证 明 它 对 于 M 个 变量 也 是 归 
一 化 的 。 为 了 证 明 这 一 点 ， 考 虑 M 个 变量 上 的 狄 利 克 雷 分 布 ， 利 用 限制 条 件 环 好 | y = 1 消 
除 /xz ， 从 而 狄 利克 雷 分 布 可 以 写成 

















这 里 








M-1 M-1 ia 

PM(K1):.) WM-1) = CM [I [yu ( = | (2.272) 

k=1 j=1 

我 们 的 目标 是 找到 Cm 的 表达 式 。 为 了 完成 这 一 点 ， 对 Jw_1 积 分 ， 注 意 积分 限 。 然 后 进行 变量 

替换 ， 使 得 积分 限 为 0 和 1。 假 设 Cxr_ 1 的 结果 正确 ， 使 用 公式 (2.265) ， 推 导出 Cm 的 表达 式 。 
(2.10) ”GC*) 使 用 Gamma 函 数 的 性 质 T (zx 十 1) = zxT(x), 证 明 由 公式 (2.38) 给 出 的 狄 利克 

雷 分 布 的 均值 、 方 差 、 协 方差 为 下 面 的 结果 。 





0 























pl] = (2.273) 
a Qj (Qo x oj 
varljj| = a (2.274) 
i I ; 
cov[uzm] 人 x! (2.275) 
其 中 ao 由 公式 (2.39) 定义 。 
(2.11) (*) 在 狄 利克 雷 分 布 (2.38) 下 ， 通 过 将 ln ;的 期 望 表示 为 qj 的 形式 ， 证 明 
Elln pj] = vo;) — Woo) (2.270) 
其 中 ao 由 公式 (2.39) 给 出 ， 且 
up(a) 三 二 lInT'(a) (2277) 
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是 一 个 Digamma 冰 数 。 
(2.12) (*) 连续 变量 z 的 均匀 分 布 被 定义 为 


) QwXZ 挟 b (2.278) 
b—a 
证 明 分 布 是 归 一 化 的 ， 并 求 出 分 布 的 均值 和 方差 。 
(2.13) (tx#*) 计算 两 个 高 斯 分 布 p(x) = N(x | 4, 允 ) 和 g(x) = N(x | m, 工 ) 的 Kullback- 
Leibler 散 度 (1.113) 。 
(2.14) (xx) 这 个 练习 说 明了 ， 对 于 给 定 的 协 方差 ， 具有 最 硕 的 多 元 概率 分 布 是 高 斯 分 
布 。 概 率 分 布 z(z) 的 业 为 





U(x | a,2) = 


五 [z] = 一 让 ln p(Z) dz (2.279) 
我 们 想 要 对 于 所 有 的 归 一 化 的 且 具 有 均值 和 协 方差 的 概率 分 布 p(x)， 最 大 化 五 [x]， 即 
/四 az=l (2.280) 
jedz=n (2.281) 
/re -We dr = (02.282) 


通过 使 用 变 分 法 对 (2.279) 进行 最 大 化 ， 然 后 使 用 拉 格 朗 日 乘 数 法 来 引入 限制 条 件 (2.280) 、 
(2.281) 和 (2.282) ， 证 明 最 大 似 然 分 布 由 高 斯 分 布 (2.43) 给 出 。 
(2.15) (x*) 证 明 多 元 高 斯 分 布 N(z | A, 马 ) 的 迷 为 





Hlz| = ; In | 习 | Sl H ln(27)) (2.283) 


其 中 D 是 zx 的 维度 。 

(2.16) (x*) 考虑 两 个 服从 高 斯 分 布 的 随机 变量 z1 和 z2， 均 值 分 别 为 1 和 Ma ， 精 度 分 别 
为 和 72。 推 导 变 量 x = zl + z2 的 表达 式 。 推 导 方 法 如 下 。 首 先 使 用 下 面 的 关系 找到 z 的 概率 分 
布 。 


D(Z) = I p(x | zz)p(z2) dr2 (2.284) 


然后 对 指数 项 配 平方 。 之 后 ， 我 们 观察 到 ， 它 表示 两 个 高 斯 分 布 的 卷 积 ， 这 个 卷 积 本 身 是 高 斯 
分 布 。 最 后 ， 使 用 公式 (1.110) 给 出 的 一 元 高 斯 分 布 的 粹 的 结果 。 

(2.17) (*) 考虑 公式 (2.43) 给 出 的 多 元 高 斯 分 布 。 通 过 把 精度 矩阵 〈 协 方差 矩阵 的 逆 矩 
阵 ) 如 写成 对 称 矩 阵 和 反对 称 和 矩阵 的 和 ， 证 明 反 对 称 项 不 会 出 现在 高 斯 分 布 的 指数 项 中 ， 因 
此 我 们 可 以 令 精 度 矩 阵 为 对 称 和 矩阵 而 不 失 一 般 性 。 由 于 对 称 和 矩阵 的 逆 矩 阵 还 是 对 称 算 阵 ( 见 练 
习 2.22) ， 因 此 我 们 也 可 以 令 协 方差 矩阵 为 对 称 和 矩阵 而 不 失 一般 性 。 

(2.18) (ee) 考虑 一 个 实 对 称 矩 阵 于 ， 它 的 特征 值 方程 由 公式 (2.45) 给 出 。 通 过 对 这 个 
方程 取 复 共 轿 ， 然 后 与 原 方程 相 减 ， 之 后 与 特征 向 量 wi 做 内 积 ， 证 明 特 征 值 是 实数 。 类 似 
地 ,使 用 允 的 对 称 性 ， 证 明 如 果 和 j 取 入， 那么 两 个 特征 值 wi; 和 wj 正 交 。 最 后 ， 证 明 不 失 一 般 
性 ， 特 征 向 量 的 集合 可 以 选择 成 单位 正 交 的 ， 即 它们 满足 公式 (2.46) ， 即 使 某 些 特征 值 为 零 。 

(2.19) (**) 证 明 ， 具 有 特征 值 方 程 (2.45) 的 实 对 称 矩 阵 允 可 以 表示 成 特征 向 量 的 展开 
式 ， 系 数 由 特征 值 给 出 ， 形 式 如 公式 (2.48) 所 示 。 类 似 地 ,证 明 ， 逆 和 抢 阵 吾 “ 可 以 表示 为 公式 
(2.49) 。 

(2.20) (GY) 一 个 正定 矩阵 忆 的 定义 为 : 对 于 任意 实 值 向 量 w， 下 面 的 二 次 型 都 为 正 。 


aa (2.285) 


证 明 ， 马 为 正定 矩阵 的 充分 必要 条 件 是 互 的 所 有 特征 值 Xi 均 为 正 。 
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(2.21) (*) 证 明 D x D 的 实 对 称 矩 阵 有 全 2 个 独立 参数 。 
(2.22) (*) 证 明 对 称 和 矩阵 的 逆 矩 阵 还 是 对 称 矩 阵 。 
(2.23) ”(**) 通过 使 用 特征 向 量 展开 式 (2.48) 对 坐标 系 进行 对 角 化 ， 证 明 ， 对 应 于 常数 
马 氏 距离 A 的 超 椭 球体 的 体积 关 
Vp|5|? AP (2.280) 


其 中 Vp 是 D 维 单位 球体 的 体积 ， 马 氏 距 离 由 公式 〈2.44) 定义 。 
(2.24) (**) 证 明 恒 等 式 (2.76) 。 方 法 为 : 将 两 边 都 乘 以 矩阵 


4 万 
人 pa 


然后 使 用 公式 〈2.77) 。 
(225) (9) 在 23.1 节 和 23.2 节 ， 我 们 考虑 了 多 元 高 斯 分 布 的 条 件 分 布 和 边缘 分 布 。 更 一 
般 地 ， 我 们 可 以 考虑 将 z 的 元 素 划 分 为 三 组 zu ze 和 zc， 对 应 的 均值 向 量 / 的 划分 和 协 方差 矩 


阵 允 的 划分 如 下 
Ha Zaa Zu Dae 
LH= [po|, Y= | Yo Yi (2.288) 
He Zeca 3 Zecc 


使 用 2.3 节 的 结果 ， 找 到 条 件 概率 p(ze | zb) 的 表达 式 ， 其 中 zc 已 经 被 边缘 化 〈 积 分 或 求 和 ) 。 
《2.26) (**) 线性 代数 的 一 个 有 用 的 结果 是 Woodbury 和 矩阵 求 逆 公 式 


(A+BCD)'=A -A 'B(C +D4-IB)-1D4- (2.289) 


通过 将 两 侧 同时 乘 以 (4 + BCD)， 证 明 这 个 结果 的 正确 性 。 
(2.27) ”(*) 令 z 和 z 是 两 个 独立 的 随机 向 量 ， 即 p(x,z) = p(xX)p(z)。 证 明 它 们 的 
和 2 = zx 十 z 的 均值 等 于 各 自分 别 的 均值 之 和 。 类 似 地 ， 证 明 y 的 协 方差 矩阵 等 于 xz 的 协 方差 矩 
阵 和 z 的 协 方差 矩阵 之 和 。 证 明 这 个 结果 与 练习 1.10 的 结果 相符 。 
(2.28) ”Cx*) 考虑 变量 
z 一 0 (2.290) 


的 联合 概率 分 布 ， 它 的 均值 和 协 方差 分 别 由 公式 (2.108) 和 公式 (2.105) 给 出 。 通 过 使 用 公式 
(2.92) 和 公式 (2.93) 的 结果 , 证明 边缘 概率 分 布 p(z) 由 公式 (2.99) 给 出 。 类 似 地 ， 通 过 使 

用 公式 (2.81) 和 公式 (2.82) 的 结果 ， 证 明 条 件 概率 分 布 p(y | x) 由 公式 (2.100) 给 出 。 

(2.29) ”GY*) 使 用 分 块 矩 阵 的 求 逆 公式 (2.76) ， 证明 精度 矩阵 (2.104) 的 逆 和 矩阵 由 公式 

(2.105) 的 协 方差 矩阵 给 出 。 

(2.30) (*) 从 公式 (2.107) 开始 , 使 用 (2.105) 的 结果 ,证 明 公式 (2.108) 。 

(231) ”(%) 考虑 两 个 多 维 随机 向 量 z 和 z， 它 们 分 别 服从 高 斯 分 布 plz) = N(z | 
Kz; >z) 和 p(z) = 人 ALz | MAz 王 >)， 它 们 的 和 为 y = zz 十 z。 使 用 公式 (2.109) 和 公式 (2.110) 的 
结果 ， 通 过 考虑 由 边缘 概率 分 布 p(z) 和 条 件 概 率 分 布 p(y | z) 的 乘积 构成 的 线性 高 斯 模型 ， 求 出 
边缘 概率 分 布 p(y) 的 表达 式 。 

(2.32) (Ce 本 练习 和 下 一 个 练习 提供 了 计算 线性 高 斯 模型 中 的 二 次 型 的 机 会 ， 同 时 给 出 
了 一 个 独立 的 对 于 教材 正文 中 推导 结果 的 检查 。 考 虑 一 个 联合 概率 分 布 p(z,V)， 它 通过 公式 

(2.99) 和 公式 (2.100) 给 出 的 边缘 概率 分 布 和 条 件 概率 分 布 定 义 。 通 过 考察 联合 分 布 指数 项 
的 二 次 型 ， 使 用 2.3 节 讨论 的 配 平方 的 方法 ， 找 到 边缘 概率 分 布 p(y) 的 均值 和 协 方差 的 表达 式 ， 
其 中 变量 z 已 经 被 积分 出 去 了 。 为 了 做 到 这 一 点 ， 使 用 Woodbury 和 矩阵 求 逆 公 式 (2.289) 。 证 明 
这 个 结果 和 第 2 章 中 推导 出 的 结果 〈2.109) 和 “(2.110) 是 相符 的 。 

(2.33) Ge) 考虑 与 练习 2.32 相 同 的 联合 概率 分 布 ， 但 是 现在 使 用 配 平 方 技术 寻找 条 件 概 
率 分 布 p(x | 9) 的 均值 和 协 方 差 的 表达 式 。 与 之 前 一 样 ， 证 明 这 个 结果 与 对 应 的 表达 式 (2.111) 
和 “(2.112) 相符 。 

(2.34) ”(**) 为 了 找到 多 元 高 斯 分 布 的 协 方差 矩阵 的 最 大 似 然 解 ， 我 们 需要 关于 最 大 化 
对 数 似 然 通 数 (2.118) 。 注 意 ， 协 方差 矩阵 一 定 是 对 称 的 、 正 定 的 。 这 里 ， 我 们 忽略 这 些 限 
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制 ， 直 接 进行 最 大 化 。 使 用 附录 C 中 的 结论 (C.21) 、(C.26) 和 “(C.28) ， 证 明 最 大 化 对 数 似 
然 函 数 (2.118) 的 协 方 差 矩 阵 忆 由 样本 协 方差 (2.122) 给 出 。 我 们 注意 到 最 终 求 得 的 结果 确实 
是 对 称 的 、 正 定 的 〈 假 设 样本 协 方差 矩阵 非 奇 异 ) 。 

(2.35) (GY*) 使 用 公式 〈2.59) 的 结果 证 明 公 式 (2.62) 。 现 在 使 用 (2.59) 和 (2.62) ,证 
明 














Eznzd] = pu’ + TmD (2.291) 
其 中 zn 表 示 从 均值 为 4 协 方差 为 允 的 高 斯 分 布 中 采样 的 数据 点 ，Inm 表 示 单 位 矩阵 的 第 (n,m) 个 


元 素 。 从 而 证 明了 公式 (2.124) 给 出 的 结论 。 
(2.36) (**) 使 用 与 推导 公式 (2.126) 类 似 的 步 又， 推导 一 元 高 斯 分 布 的 方差 的 顺序 估计 
的 表达 式 。 推 导 的 起 点 为 最 大 似 然 表达 式 





N 
1 
or = 元 0 = (2.292) 


n=1 


证 明 ， 把 这 个 高 斯 分 布 的 表达 式 代 入 Robbins-Monro 顺 序 估计 公式 (2.135) 中 ， 会 得 到 同样 形式 
的 结果 ， 因 此 就 可 以 得 到 对 应 的 系数 aN 的 表达 式 。 

(2.37) ”(**) 使 用 与 推导 公式 (2.126) 类 似 的 步 又 C， 推 导 多 元 高 斯 分 布 的 协 方差 的 顺序 轨 
迹 的 表达 式 。 推 导 的 起 点 为 最 大 似 然 表 达 式 (2.122) 。 证 明 ， 把 这 个 高 斯 分 布 的 表达 式 代 
入 Robbins-Monro 顺 序 估计 公式 (2.135) 中 ， 会 得 到 同样 形式 的 结果 ， 因 此 就 可 以 得 到 对 应 的 系 
数 aN 的 表达 式 。 

(2.38) (*) 对 指数 项 上 的 二 次 型 进行 配 平方 ， 推 导出 公式 (2.141) 和 (2.142) 给 出 的 结 








(2.39) ”Gx*) 从 高 斯 随机 变量 的 后 验 概率 分 布 的 结果 (2.141) 和 (2.142) 开始 ， 分 离 
出 前 N - 1 个 数据 点 的 贡献 ， 因 此 就 得 到 了 ww 和 cx 的 顺序 更 新 的 表达 式 。 现 在 从 后 验 概 
率 分 布 p(j | zh ZN 二 NN(4| KN-1,0N_1) 开 始 ， 推 导出 同样 的 结果 ， 然 后 与 似 然 函 
2 | 二 N(zn | 102) 相 对 ,之 后 配 平方 、 归 一 化 ， 就 得 到 了 NN 次 观察 之 后 的 后 验 概率 分 


(2.40) (Gx) 考虑 D 维 高 斯 随机 变量 z， 分 布 为 N(x | 1,)， 其 中 协 方差 矩阵 允 已 
知 ， 我 们 想 从 一 组 观测 X = {z1,...,zN} 中 推断 出 均值 1.。 给 定 一 个 先 验 概率 分 
布 p(A) =N(k | po, 0)， 找 到 对 应 的 后 验 概率 分 布 p(14 | 针 )。 

(2.41) (*) 使 用 Gamma 函 数 的 定义 (1.141) ,证 明 Gamma 分 布 (2.146) 是 归 一 化 的 。 

(2.42) ”(**) 计算 Gamma 分 布 (2.146) 的 均值 、 方 差 、 众 数 。 

(2.43) (*) 下 面 的 分 布 


2 ee d |z|? 
DZ |o ,9) = 了 让 °( 2 ) (2.293) 
q 


是 一 元 高 斯 分 布 的 推广 。 证 明 这 个 分 布 是 归 一 化 的 ， 即 








| p(xz|0o,g) dr =1 (2.294) 


并 且 当 gq = 2 时 ， 它 会 变 为 高 斯 分 布 。 考 虑 一 个 回归 模型 ， 它 的 目标 变量 为 上 = y(%,2w) 十 e， 
其 中 ce 是 一 个 随机 噪声 ， 服 从 公式 (2.293) 给 出 的 概率 分 布 。 对 于 输入 向 量 的 观测 数据 
集 X = {z1 ZN} 和 对 应 的 目标 变量 t = (1,.…. ,tN)”， 证 明 关于 w 和 o 的 对 数 似 然 函 数 为 


N 
Inp(t | XX,w,0) = — > yrn, ww) — tal 一 一 In(2o2) + 常数 (2.295) 
d 


其 中 ,“ 常 数 ” 表 示 与 w 和 o? 无 关 的 项 。 注 意 ， 作 为 w 的 函数 ， 这 就 是 1.5.5 节 讨论 的 Lg 误差 函数 。 
(2.44) (**) 考虑 一 个 一 元 高 斯 分 布 N(z | 1 7)， 其 共 罗 先 验 为 公式 (2.154) 给 出 的 高 
斯 -Gamma 分 布 。 我 们 还 有 一 个 数据 集 x = {x1,.….,XN}， 每 个 观测 都 是 独立 同 分 布 的 。 证 明 后 
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验 概率 分 布 也 是 一 个 高 斯 -Gamma 分 布 ， 与 先 验 分 布 有 着 相同 的 函数 形式 。 写 出 这 个 后 验 概 率 分 
布 的 参数 的 表达 式 。 

(2.45) (*) 证 明 由 公式 (2.155) 定义 的 Wishart 分 布 确实 是 多 元 高 斯 分 布 的 精度 矩阵 的 共 
轿 先 验 。 

(2.46) (*) 证 明 ， 计算 公式 (2.158) 的 积分 会 得 到 公式 (2.159) 的 结果 。 

(2.47) (*) 证 明 ， 在 极限 v 一 co 的 情况 下 ， 公 式 (2.159) 给 出 的 { 分 布 会 变 成 高 斯 分 布 。 
提示 : 忽略 归 一 化 系数 ， 只 关注 与 有 关 的 项 。 

(2.48) (*) 使 用 与 推导 一 元 学 生 t 分 布 (2.159) 类 似 的 过 程 ， 通 过 对 公式 (2.161) 的 变 
量 ” 进 行 积分 ， 证 明 多 元 学 生 { 分 布 的 形式 为 公式 (2.162) 。 使 用 定义 (2.161) ， 通 过 交换 积分 
变量 的 方法 ， 证 明 多 元 t 分 布 被 正确 归 一 化 了 。 

(2.49) (**) 通过 将 多 元 学 生 { 分 布 的 定义 〈2.161) 看 做 Gamma 分 布 和 高 斯 分 布 的 卷 积 ， 证 
明 由 公式 (2.162) 定义 的 多 元 t 分 布 的 性 质 (2.164) 、 (2.165) 和 (2.166) 。 

(2.50) (*) 证 明 ， 在 极限 > 一 co 的 情况 下 ， 公 式 (2.162) 给 出 的 多 元 学 生 t 耸 布 会 变 为 均 
值 为 精度 为 A 的 高 斯 分 布 。 

(2.51) (*) 本 章 在 讨论 周期 变量 时 使 用 的 各 种 三 角 恒等式 可 以 很 容易 地 通过 下 面 的 关系 证 
明 。 








exp(iA) = cos A+isinA (2.290) 
其 中 i 是 -1 的 平方 根 。 通 过 考虑 下 面 的 恒等式 
exp(iA) exp(—iA) =1 (2.297) 
证 明 结 果 (2.177) 。 类 似 地 ， 使 用 恒等式 
cos(A— B)= Rexp{i(A— B)} (2.298) 


其 中 外表 示 实 部 ， 证 明 公 式 (2.178) 。 最 后 ， 使 用 sin(4 一 B) = Jexp{i(4 一 B)}， 其 中 3 表示 虚 
部 ， 证 明 结 果 (2.183) 。 

(2.52) (+) 对 于 大 的 m，von Mises 分 布 (2.179) 在 众 数 go 附近 会 出 现 尖峰 。 通 过 定 
义 & = m3(9 一 00)， 使 用 余弦 函数 的 泰勒 展开 式 


a 
eos O(ad) (2.299) 
证 明 ， 随 着 m 一 co，von Mises 分 布 趋 近 于 高 斯 分 布 。 

(2.53) (*) 使 用 三 角 恒 等 式 (2.183) ,证 明 (2.182) 关于 0 的 解 为 (2.184) 。 

(2.54) ” (*) 通过 计算 von Mises 分 布 (2.179) 的 一 阶 导 数 和 二 阶 导 数 ， 并 且 使 
用 m > 0 时 Jo(m) > 0 的 性 质 ， 证 明 当 9 = 90 时 ， 概 率 分 布 取 得 最 大 值 ;， 当 0 = 00 十 7( 
mod 27) 时 ， 概 率 分 布 取 得 最 小 值 。 

(2.55) (*) 通过 使 用 公式 (2.168) 给 出 的 结果 ， 以 及 公式 (2.184) 和 三 角 恒 等 式 
(2.178) ， 证 明 von Mises 分 布 的 concentration 参 数 的 最 大 似 然 解 mwr 满 足 4(mmr) = 7， 其 
中 7 是 当 我 们 把 观测 看 成 二 维 欧 几 里 得 空间 的 单位 向 量 时 (如 图 2.17 所 示 ) ， 观 测 的 均值 的 半 
径 。 

(2.56) ”(**) 把 Beta 分 布 (2.13) 、Gamma 分 布 (2.146) 和 von Mises 分 布 (2.179) 表达 为 
指数 族 分 布 (2.194) 的 成 员 ， 从 而 就 可 以 求 出 它们 的 自然 参数 。 

(2.57) ” (*) 证 明 多 元 高 斯 分 布 可 以 转化 为 形 如 (2.194) 的 指数 族 分 布 ， 推 导出 类 似 于 
(2.220) 到 (2.223) 的 9、w(z)、h(z) 和 g(m) 的 表达 式 。 

(2.58) (*) 公式 (2.226) 给 出 的 结果 表明 ， 对 于 指数 族 分 布 ，ln g(n) 的 负 梯 度 为 u(x) 的 
期 望 。 通 过 对 公式 (2.195) 的 两 侧 取 二 阶 导数 ， 证 明 


-VVlng(7) = 下 [rw(z)uw(z)7] 一 正 [w(o)] 正 [wu(z)2] = cov[w(z)] (2.300) 


(2.59) (*) 通过 使 用 y = 进行 变量 蔡 换 ， 证 明 ， 如 果 jz) 被 正确 归 一 化 了 ， 那 么 概率 密 
度 (2.236) 就 会 被 正确 归 一 化 。 
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(2.60) Gy) 考虑 一 个 类 似 直方 图 的 密度 模型 ， 其 中 空间 z 被 分 成 国定 的 区 域 ， 且 在 第 ;个 
区 域 中 ， 概 率 密度 p(x2) 取 常数 值 h;， 且 区 域 : 的 体积 被 记 作 人 A;。 假 设 我 们 有 NN 次 x 的 观测 ， 这 
些 观测 中 的 ni 次 落 在 区 域 :中 。 使 用 一 个 拉 格 朗 日 习 数 给 概率 密度 施加 归 一 化 的 限制 ,推导 
出 {hi} 的 最 大 似 然 估 计 的 表达 式 。 

(2.61) (*) 证 明 K 近 邻 概率 密度 模型 定义 了 一 个 反常 的 概率 分 布 ， 这 个 分 布 在 整个 空间 上 
的 积分 是 发 散 的 。 
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3 回归 的 线性 模型 


目前 为 止 ， 本 书 的 关注 点 是 无 监督 学 习 ， 包 括 诸如 概率 密度 估计 和 数据 聚 类 等 话题 。 我 们 现 
在 开始 讨论 有 监督 学 习 ， 首 先 讨论 的 是 回归 问题 。 回 归 问 题 的 目标 是 在 给 定 D 维 输入 (input) 
变量 z 的 情况 下， 预测 一 个 或 者 多 个 连续 目标 (target) 变量 的 值 。 在 第 1 章 中 ， 我 们 已 经 遇 到 
了 回归 问题 的 一 个 例子 : 多 项 式 曲线 拟 合 问 题 。 多 项 式 是 被 称 为 线性 回归 模型 的 一 大 类 函数 的 
一 个 具体 的 例子 。 线 性 回归 模型 有 着 可 调节 的 参数 ， 具 有 线性 函数 的 性 质 ， 将 会 成 为 本 章 的 关 
注 点 。 线 性 回归 模型 的 最 简单 的 形式 也 是 输入 变量 的 线性 函数 。 但 是 ， 通 过 将 一 组 输入 变 
量 的 非 线性 函数 进行 线性 组 合 ， 我 们 可 以 获得 一 类 更 加 有 用 的 函数 ， 议 条 /本国 
function) 。 这 样 的 模型 是 参数 的 线性 函数 ， 这 使 得 其 具有 一 些 简单 的 分 析 性 质 ， 同 时 关于 输入 
变量 是 非 线性 的 。 

给 定 一 个 由 入 个 观测 值 {zx} 组 成 的 数据 集 ， 其 中 n = 1,.….,N， 以 及 对 应 的 目标 值 {tn}， 我 
们 的 目标 是 预测 对 于 给 定 新 的 z 值 的 情况 下 ，t 的 值 。 最 简单 的 方法 是 ， 直 接 建 立 一 个 适当 的 函 
数 y(z)， 对 于 新 的 输入 xX， 这 个 函数 能 够 直接 给 出 对 应 的 t 的 预测 。 更 一 般 地 ， 从 一 个 概率 的 观 
点 来 看 ， 我 们 的 目标 是 对 预测 分 布 p(t | 2) 建 模 ， 因 为 它 表 达 了 对 于 每 个 + 值 ， 我 们 对 于 t 的 值 的 
不 确定 性 。 从 这 个 条 件 概 率 分 布 中 ， 对 于 任意 的 xz 的 新 值 ， 我 们 可 以 对 t 进 行 预 测 ， 这 种 方法 等 
同 于 最 小 化 一 个 恰当 选择 的 损失 函数 的 期 望 值 。 正 如 在 1.5.5 节 讨论 的 那样 ， 对 于 实 值 变量 3 
膏 ， 损 失 通 数 的 一 个 通常 的 过 反对 于 这 种 情况 下 最 优 解 由 t 的 条 件 期 望 给 出 。 

虽然 线性 模型 对 于 模式 识别 的 实际 有 很 大 的 局 限 性 ， 特 别 是 对 于 涉及 到 高 维 输入 空 
间 的 问题 来 说 更 是 如 此 ， 但 是 他 们 有 很 好 的 分 析 性 质 ， 并 且 组 成 了 后 续 章 节 中 将 要 讨论 的 更 加 
复杂 的 模型 的 基础 。 


3.1 线性 基 函 数 模型 
回归 问题 的 最 简单 模型 是 输入 变量 的 线性 组 合 
V(z,U) 一 0 十 WIIZ1 十 .十 WPpZDP (3.1) 


其 中 z = (x1,.…,7XD) ”。 这 通常 被 简单 地 称 为 线性 回归 (linear regression) 。 这 个 模型 的 关键 性 
质 是 它 是 参数 wo,... ,wp 的 一 个 线性 函数 。 但 是 ， 它 也 是 输入 变量 x; 的 一 个 线性 函数 ， 这 给 模 
型 带 来 的 极 大 的 局 限 性 。 因 此 我 们 这 样 扩展 模型 的 类 别 : 将 输入 变量 的 固定 的 非 线 性 函数 进行 
线性 组 合 ， 形 式 为 
V(Z,U) = wo : wipi(T) (3.2) 
7=1 
其 中 9;(zx) 被 称 为 其 函数 (basis function) 。 通 过 把 下 标 7 的 最 大 值 记 作 M 一 1， 这 个 模型 中 的 参 
数 总 数 为 M。 
参数 wo 使 得 数据 中 可 以 存在 任意 固定 的 偏 置 ， 这 个 值 通常 被 称 为 偏 置 参 数 (bias 
parameter) 。 注 意 不 要 把 这 里 的 “ 偏 置 ' 与 统计 学 中 的 “人 篇 置 " 弄 混淆 。 通 常 ， 定 义 一 个 额外 的 
虚 基 函 数 %(z) = 1 是 很 方便 的 ， 这 时 


M—1 


y(z,w) = >》 wdi(r) = w P(r) (3.3) 


j=0 


其 中 由 = (wo ,wm-1) 且 98 = (80,.….,9$u-1)*'。 在 许多 模式 识别 的 实际 应 用 中 ， 我 们 会 对 
原始 的 数据 变量 进行 某 种 固定 形式 的 预 处 理 或 者 特征 抽取 。 如 果 原 始 变量 由 向 量 z 组 成 ， 那 么 
特征 可 以 用 基 轴 数 {9;(z)} 来 表示 。 

通过 使 用 非 线性 基 函 数 ， 我 们 能 够 让 函数 y(z, 刀 ) 成 为 输入 向 量 z 的 一 个 非 线性 函数 。 但 是 ， 
形 如 (3.2) 的 函数 被 称 为 线性 模型 ， 因 为 这 个 函数 是 ww 的 线性 函数 。 正 是 这 种 关于 参数 的 线性 
极 大 地 简化 了 对 于 这 列 模型 的 分 析 。 然 而 ， 这 也 造成 了 一 些 巨大 的 局 限 性 ， 正 如 我 们 在 3.6 节 讨 
论 的 那样 。 

第 1 章 中 讨论 的 多 项 式 拟 合 的 例子 是 这 个 模型 的 一 个 特例 ， 那 里 有 一 个 输入 变量 z， 基 函数 
是 x 的 宪 指 数 的 形式 ， 即 Vj(x) = 吧 。 多 项 式 基 函 数 的 一 个 局 限 性 是 它们 是 输入 变量 的 全 局 函 
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图 3.1: 基 函 数 的 例子 ， 左 图 是 多 项 式 基 函数 ， 中 图 是 形式 为 〈3.4) 的 高 斯 基 函 数 ， 右 图 是 形式 为 〈3.5) 
的 sigmoid 基 函 数 。 


数 ， 因 出 这 个 问题 可 以 这 样 解决 : 把 
输入 空间 负数 拟 合 。 这 样 的 函数 叫做 样 





YAD 入 
条 画 数 (spline function) (Hastie et al., 2001) 。 
对 于 基 函 数 ， 有 许多 其 他 的 选择 ， 例 如 


Pj(T) = exp { } 9 


其 中 jj 控制 了 基 函 数 在 输入 空间 中 的 位 置 ， 参 数 s 控 制 了 基 沙 数 的 空间 大 小 。 这 种 基 函 数 通 常 被 
疮 为 广电 各 了 娄 但 是 应 该 注意 它们 未 必 一 定 是 一 个 概率 表达 式 。 特 别 地 ， 归 一 化 系数 不 重 
要 ， 因 为 这 些 基因 数 会 与 一 个 调节 参数 wj 相 乘 。 

男 一 种 选择 是 sigmoid 藉 函数， 形式 为 


ee (=#) G5) 
其 中 o(a) 是 logistic sigmoid 疯 数 ， 定 义 为 


(3.0) 


Oa 


1+ exp(—a) 


等 价 地 ， 我 们 可 以 使 用 tanh 函 数 ， 因 为 它 和 logistic sigmoid 函 数 的 关系 为 tanh(a) = 20(24) 一 1， 
因此 logistic sigmoid 函 数 的 一 般 的 线性 组 合 等 价 于 tanh 函 数 的 一 般 的 线性 组 合 。 图 3.1 说 明了 基 函 
数 的 不 同 选择 情况 。 

基 沙 数 的 男 一 种 可 能 的 选择 是 传 里 叶 基 浮 数 ， 它 可 以 用 正弦 函数 展开 。 每 个 基 浮 数 表示 一 个 
具体 的 频率 ， 它 在 空间 中 有 无 限 的 延伸 。 相 反 ， 限 制 在 输入 空间 中 的 有 限 区 域 的 基 范 数 要 由 不 
同 空 间 频 率 的 一 系列 频谱 组 成 。 在 许多 信号 处 理 的 应 用 中 ， 一 个 吸引 了 研究 者 兴趣 的 问题 是 考 
虑 同时 在 空间 和 频率 受 限 的 基 函 数 。 这 种 研究 产生 了 一 类 被 称 为 小 波 (wavelet) 的 函数 。 为 了 
简化 应 用 ， 这 些 基 函数 被 定义 为 相互 正 交 的 。 当 应 用 中 的 输入 值 位 于 正规 的 唱 格 中 时 ， 应 用 小 
波 最 合适 。 这 种 应 用 包括 时 间 序 列 中 的 连续 的 时 间 点 ， 以 及 图 像 中 的 像素 。 关 于 小 波 的 有 用 的 
教科 书包 括 Ogden (1997) ，Mallat (1999) 和 Vidakovic (1999) 。 

但 是 ， 本 章 中 的 大 部 分 讨论 都 与 基 函 数 的 选择 无 关 。 因 此 对 于 我 们 的 大 部 分 讨论 ， 我 们 不 会 
具体 化 基 范 数 的 特定 形式 ， 除 非 我 们 为 了 数值 说 明 。 事 实 上 ， 我 们 的 大 部 分 讨论 将 会 同等 地 适 
用 于 基 浮 数 向 量 p(x) 的 形式 为 p(x) = zx 的 情形 。 此 外 ， 为 了 保持 记号 的 人 简洁， 我 们 把 注意 力 集 
中 于 单一 目标 变量 的 情形 。 但 是 在 3.1.5 节 里 ， 我 们 将 会 简短 地 考虑 必要 的 修改 ， 来 处 理 多 个 目 


标 变量 的 情形 。 





3.1.1 最 大 似 然 与 最 小 平方 

在 第 1 章 ， 我 们 通过 最 小 化 平方 和 误差 函数 ， 用 多 项 式 函 数 拟 合 数据 集 。 我 们 也 证 明了 ， 这 
种 误差 函数 可 以 看 成 高 斯 噪声 模型 的 假设 下 的 最 大 似 然 解 。 现 在 让 我 们 回 到 这 种 讨论 中 ， 更 加 
详细 地 考虑 最 小 平方 的 方法 以 及 它 与 最 大 似 然 方法 的 关系 。 
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与 之 前 一 样 ， 我 们 假设 目标 变量 t 由 确定 的 函数 y(x,w) 给 出 ， 这 个 函数 被 附加 了 高 斯 噪声 ， 


即 
t=Yy(z,w)+e (3.7) 
其 中 ec 是 一 个 零 均 值 的 高 斯 随机 变量 ， 精 度 (方差 的 倒数 ) 为 6。 因此 我 们 有 
p(t | za,B) = N(t | y(z,w),B ) (3.8) 


回忆 一 下 ， 如 果 我 们 假设 一 个 平方 损失 函数 ， 那 么 对 于 z 的 一 个 新 值 ， 最 优 的 预测 由 目标 变量 
的 条 件 均 值 给 出 。 在 公式 〈3.8) 给 出 的 高 斯 条 件 分 布 的 情况 下 ， 条 件 均值 可 以 简单 地 写成 














Elt | x] = fm | zx) dt = vy(z, w) (3.9) 


注意 高 斯 噪声 的 假设 表明 ， 给 定 x 的 条 件 下 ，t 的 条 件 分 布 是 单 峰 的 ， 这 对 于 一 些 实际 应 用 来 说 
是 不 合适 的 。 第 14.5.1 节 将 扩展 到 条 件 高 斯 分 布 的 混合 ， 那 种 情况 下 可 以 描述 多 峰 的 条 件 分 布 。 

现在 考虑 一 个 输入 数据 集 忒 = {21,.….,zN}， 对 应 的 目标 值 为 石 ,….,tNn。 我 们 把 目标 向 
量 {ty} 组 成 一 个 列 问 量 ， 记 作 t。 这 个 变量 的 字体 与 多 元 目标 值 的 一 次 观测 ( 记 作 t) 不 同 。 假 
设 这 些 数据 点 是 独立 地 从 分 布 (3.8) 中 抽取 的 ， 那 么 我 们 可 以 得 到 下 面 的 似 然 函数 的 表达 式 ， 
它 是 可 调 市 参数 w 和 C 的 函数 ， 形 式 为 





N 
p(t| X,w,8)= [No | w G(rn), B71) (3.10) 


S 
ll 
记 


其 中 我 们 使 用 了 公式 (3.3) 。 注 意 ， 在 有 监督 学 习 问 题 中 (例如 回归 问题 和 分 类 问题 ) ， 我 们 
不 是 在 寻找 模型 来 对 输入 变量 的 概率 分 布 建 模 。 因 此 z 总 会 出 现在 条 件 变 量 的 位 置 上 。 因 此 从 
现在 开始 ， 为 了 保持 记号 的 简洁 性 ， 我 们 在 诸如 p(t | x,w, 6) 这 类 的 表达 式 中 不 显 式 地 写 出 zx。 
取 对 数 似 然 函数 的 对 数 ， 使 用 一 元 高 斯 分 布 的 标准 形式 (2.146) ,我 们 有 





N 
Inp(t | w,B)= InN(tn | ww $2n), 6) 
n=1 (3.11) 


- 全 ng = In(27n) — BEDp(w) 


其 中 平方 和 误差 函数 的 定义 为 
1 N 
Ep(w)=3 Of{t —w prn)} (3.12) 
n=1 


写 出 了 似 然 函数 ， 我 们 可 以 使 用 最 大 似 然 的 方法 确定 ww 和 68。 首先 关于 ww 求 最 大 值 。 正 如 我 
们 已 经 在 1.2.5 节 中 已 经 看 到 的 那样 ， 我 们 看 到 在 条 件 高 斯 噪声 分 布 的 情况 下 ， 线 性 模型 的 似 然 
函数 的 最 大 化 等 价 于 平方 和 误差 函数 的 最 小 化 。 平 方 和 误差 函数 由 Ep(w) 给 出 。 公 式 (3.11) 
给 出 的 对 数 似 然 函数 的 梯度 为 


N 
Vinp(t |w,pB)=6) {tn —w G(rn)} (zn) (3.13) 
=1 
令 这 个 梯度 等 于 零 ， 可 得 
六 N 
Ds 2 如 的 (Zn 一 7 (> blondlen)] (3.14) 
n=1 n=1 
求解 w， 我 们 有 
wuL = (®" 更 ) ®t (3.15) 
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ot 


图 3.2: 最 小 平方 解 的 几何 表示 ， 在 一 个 入 维 空间 中 ， 坐 标 轴 是 石 ,…. ,tx 的 值 。 最 小 平方 回归 函数 可 以 通 
过 下 面 的 方式 得 到 : 寻找 数据 向 量 t 在 由 基 函 数 几 (z) 张 成 的 子 空 间 上 的 正 交 投影 ， 其 中 每 个 基因 数 都 可 
以 看 成 一 个 长 度 为 N 的 向 量 p;， 它 的 元 素 为 $; (xn)。 


这 被 称 为 最 小 平方 问题 的 规范 方程 (normal equation) 。 这 里 再 是 一 个 N x MM 的 矩阵 ， 被 称 为 设 
计 和 矩阵 (design matrix) ， 它 的 元 素 为 Bn; = 9;(zxn)， 即 


poz1) DIT1) 1 pM-1(T1) 


go(z2) Di(T2) 1 pM-1(T2) 


B= (3.10) 


don pe .. dp 


Bi = (BTE) 1ET (3.17) 


被 称 为 矩阵 下 的 Moore-Penrose 伪 六 矩阵 (pseudo-inverse matrix) (Rao and Mitra, 1971; Golub 
and Van Loan 1996) 。 它 可 以 被 看 成 逆 矩 阵 的 概念 对 于 非 方 阵 的 矩阵 的 推广 。 实 际 上 ， 如 
果 王 是 方 阵 且 可 逆 ， 那 么 使 用 性 质 (AB)-! = B-!A-!, 我 们 可 以 看 到 1 = 1。 
现在 ， 我们 可 以 更 加 深刻 地 认识 偏 置 参 数 wo。 如 果 我 们 显 式 地 写 出 偏 置 参数 ， 那 么 误差 函 
数 (3.12) 变 为 
N M-1 


po ; St wo— Yo wpi(en))? (3.18) 


wo 一 t= > tj (3.19) 
j=1 
其 中 我 们 已 经 定义 了 
办 ES 
t= 六 六 人 一 N ps gji(Zn) (3.20) 
n=1 n=1 


因此 偏 置 wo 补偿 了 目标 值 的 平均 值 (在 训练 集 上 的 ) 与 基 函 数 的 值 的 平均 值 的 加 权 求 和 之 间 的 
差 。 
我 们 也 可 以 关于 噪声 精度 参数 8 最 大 化 似 然 函数 (3.11) ,结果 为 


1 


1 N 


因此 我 们 看 到 噪声 精度 的 倒数 由 目标 值 在 回归 也 数 周围 的 残留 方差 (residual variance) 给 出 。 
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现在 ， 考 虑 最 小 平方 解 的 几何 描述 有 助 于 理解 这 种 方法 。 我 们 考虑 一 个 NN 维 空 间 ， 它 的 坐标 
轴 由 如 给 出 ， 即 t = (三 ,tw) 是 这 个 空间 中 的 一 个 向 量 。 每 个 在 N 个 数据 点 处 估计 的 基 函 
数 轨 (zm) 也 可 以 表示 为 这 个 空间 中 的 一 个 向 量 ， 记 作 wj ， 如 图 3.2 所 示 。 注 意 ，wj 对 应 于 更 的 
第 7 列 ， 而 %(zn) 对 应 于 更 的 第 ; 行 。 如 果 基 函数 的 数量 M 小 于 数据 点 的 数量 X， 那 么 M 个 向 
量 ; 将 会 张 成 一 个 人 M 维 的 子 空间 S。 我 们 定义 y 是 一 个 NN 维 向 量 ， 它 的 第 n 个 元 素 为 y(zn,w)， 
其 中 n = 1,.…….,NN。 由 于 y 是 向 量 p; 的 任意 线性 组 合 ， 因 此 它 可 以 位 于 MM 维 子 空间 的 任何 位 置 。 
这 样 ， 平 方 和 误差 函数 (3.12) 就 等 于 y 和 t 之 间 的 平方 欧 氏 距离 (只 相差 个 因子 3) 
此 ， 也 的 最 小 平方 解 对 应 于 位 于 子 空 间 S 的 与 t 最 近 的 y 的 选择 。 直 观 来 看 ， 根 据 图 3.2， 我 们 猜想 
这 个 解 对 应 于 t 在 子 空间 5S 上 的 正 交 投影 。 事 实 上 确实 是 这 样 ， 并 且 很 容易 证 明 。 注 意 到 y 是 
由 Bwmz 给 出 的 ， 然 后 证 明 它 的 表达 式 为 正 交 投 影 即 可 。 

在 实际 应 用 中 ， 当 更 7 更 接 近 奇 异 矩 阵 时 ， 直 接 求解 规范 方程 会 导致 数值 计算 上 的 困难 。 特 
别 地 ， 当 两 个 或 者 更 多 的 基 向 量 “7 共 线 或 者 接近 共 线 时 ， 最 终 的 参数 值 会 相当 大 。 这 样 的 退化 
在 处 理 真实 数据 集 的 时 候 并 不 罕见 。 这 种 数值 计算 上 的 困难 可 以 通过 奇异 值 分 解 (singular value 
decomposition) 或 者 简称 SVD 的 方法 解决 (Press et al., 1992; Bishop and Nabney, 2008) 。 注 意 ， 
正则 项 的 添加 确保 了 甜 阵 是 非 奇 异 的 ， 即 使 在 退化 的 情况 下 也 是 如 此 。 














3.1.3 ”顺序 学 习 


最 大 似 然 解 (3.15) 的 求解 过 程 涉及 到 一 次 处 理 整 个 数据 集 。 这 种 批 处 理 技 术 对 于 大 规模 数 
据 集 来 说 计算 量 相 当 大 。 正 如 我 们 在 第 1 章 讨论 的 那样 ， 如 果 数 据 集 充分 大 ， 那 么 使 用 顺序 算法 
(也 被 称 为 在 线 算法 ) 可 能 更 有 价值 。 顺 序 算法 中 ， 每 次 只 考虑 一 个 数据 点 ， 模 型 的 参数 在 每 
观测 到 一 个 数据 点 之 后 进行 更 新 。 顺 序 学 习 也 适用 于 实时 的 应 用 。 在 实时 应 用 中 ， 数 据 观 测 以 
一 个 连续 的 流 的 方式 持续 到 达 ， 我 们 必须 在 观测 到 所 有 数据 之 前 就 做 出 预测 。 

我 们 可 以 获得 一 个 顺序 学 习 的 算法 通过 考虑 随机 梯度 下 降 (stochastic gradient descent) 也 
被 称 为 顺序 梯度 下 降 (sequential gradient descent) 的 方法 。 如 果 误 差 函 数 由 数据 点 的 和 组 
成 互 = > En， 那么 在 观测 到 模式 n 之 后 ， 随 机 梯度 下 降 算法 使 用 下 式 更 新 参数 向 量 w 


d(T) = rg) nV E, (3.22) 

其 中 7 表示 迭代 次 数 ，7 是 学 习 率 参数 。 我 们 稍 后 会 讨论 7 的 选择 问题 。 妈 被 初始 化 为 某 个 起 始 向 
量 w(0) 。 对 于 平方 和 误差 函数 (3.12) 的 情形 ， 我 们 有 

wD) = wh + ntn — wT) Bn) pn G3.23) 


其 中 8, = 9(zn)。 这 被 称 为 最 小 均 方 (east-mean-squares) 或 者 LMS 算 法 。7 的 值 需要 仔细 选 
择 ， 确 保 算 法 收敛 (Bishop and Nabney, 2008) 。 


3.1.4 正则 化 最 小 平方 


在 1.1 节 ， 我 们 介绍 了 为 误差 函数 添加 正则 化 项 的 思想 来 控制 过 拟 合 ， 因 此 需要 最 小 化 的 总 
的 误差 函数 的 形式 为 
Ep(w) + ABw(w) (3.24) 
其 中 入 是 正则 化 系数 ， 控 制 数 据 相 关 的 误差 Bp(w) 和 正则 化 项 Bw(w) 的 相对 重要 性 。 正 则 化 项 
的 一 个 最 简单 的 形式 为 权 向 量 的 各 个 元 素 的 平方 和 


Ew(w) = swTw (3.25) 
如 果 我 们 考虑 平方 和 误差 函数 
] N 
Ep(w) =3 DO_{tn — wi prn)} (3.20) 
n=1 
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全 中 册 册 


g 三 2 q=4 
图 3.3: 对 于 不 同 的 参数 4， 公式 (3.29) 中 的 正则 化 项 的 轮廓 线 。 


那么 总 误差 函数 就 变 成 了 
SD wT G2) + DwTw (G27 
n=1 


这 种 对 于 正则 化 项 的 选择 方法 在 机 需 学 习 的 文献 中 被 称 为 权 值 嘉 减 (weight decay) 。 这 是 因为 
在 顺序 学 习 算法 中 ， 它 倾向 于 让 权 值 向 零 的 方向 衰减 ， 除 非 有 数据 支持 。 在 统计 学 中 ， 它 提供 
了 一 个 参数 收缩 (parameter shrinkage) 方法 的 例子 ， 因 为 这 种 方法 把 参数 的 值 向 零 的 方向 收 
缩 。 这 种 方法 的 优点 在 于 ， 误 差 函 数 是 ww 的 二 次 函数 ， 因 此 精确 的 最 小 值 具 有 解析 解 。 具 体 来 
说 ， 令 公式 (3.27) 关于 ww 的 梯度 等 于 零 ， 解 出 w， 我们 有 


w= (M+E iE) ®t (3.28) 


这 是 最 小 平方 解 (3.15) 的 一 个 简单 的 扩展 。 
有 时 使 用 一 个 更 加 一 般 的 正则 化 项 ， 这 时 正则 化 的 误差 函数 的 形式 为 
N M 


SD wT Be) + 2 Dhol G29) 


n=1 7]=1 


其 中 g = 2 对 应 于 二 次 正则 化 项 (3.27) 。 图 3.3 给 出 了 不 同 9 值 下 的 正则 化 函数 的 轮廓 线 。 

在 统计 学 的 文献 中 ，g = 1 的 情形 被 称 为 套 索 (lasso) (Tibshirani, 1996) 。 它 的 性 质 为 : 如 
果 ^ 充 分 大 ， 那 么 某 些 系数 内 会 变 为 零 ， 从 而 产生 了 一 个 稀疏 (sparse) 模型 ， 这 个 模型 中 对 应 
的 基 郴 数 不 起 作用 。 为 了 说 明 这 一 点 ， 我 们 首先 注意 到 最 小 化 公式 (3.19) 等 价 于 在 满足 下 面 的 
限制 的 条 件 下 最 小 化 未 正则 化 的 平方 和 误差 函数 〈3.12) 


M 
>_lwil <n (3.30) 
j=1 


参数 7 要 选择 一 个 合适 的 值 。 这 样 ， 这 两 种 方法 通过 拉 格 朗 日 乘 数 法 被 联系 到 了 一 起 。 稀 疏 性 的 
来 源 可 以 从 图 3.4 中 看 出 来 。 图 3.4 给 出 了 在 限制 条 件 (3.30) 下 误差 函数 的 最 小 值 。 随 着 的 增 
大 ， 越 来 越 多 的 参数 会 变 为 零 。 

正则 化 方法 通过 限制 模型 的 复杂 度 ， 使 得 复杂 的 模型 能 够 在 有 限 大 小 的 数据 集 上 进行 训练 ， 
而 不 会 产生 严重 的 过 拟 合 。 然 而 ， 这 样 做 就 使 确定 最 优 的 模型 复杂 度 的 问题 从 确定 合适 的 基 浮 
数 数量 的 问题 转移 到 了 确定 正则 化 系数 和 的 合适 值 的 问题 上 。 我 们 稍 后 在 本 章 中 还 会 回 到 这 个 模 
型 复杂 度 的 问题 上 。 

对 于 本 章 的 其 余部 分 ， 我 们 将 把 注意 力 放 (3.27) 上 ， 因 为 它 在 实际 应 用 中 
很 重要 ， 并 且 数 学 计算 上 比较 容易 。 


3.1.5 “多 个 输出 
目前 为 止 ， 我 们 已 经 考虑 了 单一 目标 变量 t 的 情形 。 在 某 些 应 用 中 ， 我 们 可 能 想 预 测 K > 1 个 
目标 变量 。 我 们 把 这 些 目 标 变 量 来 集 起 来 ， 记 作 目 标 向 量 t:。 这 个 问题 可 以 这 样 解决 : 对 于 t 的 
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Ww2 





图 3.4: 未 正则 化 的 误差 函数 的 轮廓 线 〈 蓝 色 ) 以 及 公式 (3.30) 给 出 的 限制 区 域 。 左 图 是 q = 2 的 二 次 正 
则 化 项 的 限制 区 域 ， 右 图 是 4 = 1 的 套 索 正则 化 项 的 限制 区 域 ， 其 中 参数 向 量 w 的 值 被 记 作 w*。 套 索 正 则 
化 项 给 出 了 一 个 稀 昔 的 解 ， 其 中 必 = 0。 


每 个 分 量 ， 引 入 一 个 不 同 的 基 函 数 集合 ， 从 而 变 成 了 多 个 独立 的 回归 问题 。 但 是 ， 一 个 更 有 趣 
的 并 且 更 常用 的 方法 是 对 目标 向 量 的 所 有 分 即 

y(z,w) = Tb(z) (3.31) 
其 中 y 是 一 个 K 维 列 向 量 ，W 是 一 个 M x K 的 参数 矩阵 ，p(z) 是 一 个 M 为 列 向 量 ， 每 个 元 素 


为 9;(Z)， 并 且 与 之 前 一 样 ，Vo(7x) = 1。 假 设 我 们 令 目 标 向 量 的 条 件 概率 分 布 是 一 个 各 向 同性 
的 高 斯 分 布 ， 形 式 为 





p(t | x,W,B)=N(t| Wo(r), 8 17) (3.32) 


如 果 我 们 有 一 组 观测 石 ,.…., ty， 我 们 可 以 把 这 些 观 测 组 合 为 一 个 N x 五 的 矩阵 全， 使 得 矩阵 的 
第 n 行 为 友 。 类 似 地 ， 我 们 可 以 把 输入 向 量 z1,.… ,zn 组 合 为 矩阵 侠 。 这 样 ， 对 数 似 然 函 数 为 


N 
Inp(T | X,W,B)= >》 lnN(t, | WT 9(zn), B71T) 





7 要 (3.33) 
=- wo) 
与 之 前 一 样 ， 我 们 可 以 关于 WW 最 大 化 这 个 函数 ， 可 得 
Waur = (BT®) 1®T (3.34) 
如 果 我 们 对 于 每 个 目标 变量 丸 考 察 这 个 结果 ， 那 么 我 们 有 
4 = (BT EB) Bt, = Bit, (3.35) 





这 里 ,tx 是 一 个 N 维 列 癌 量 ， 元 素 为 tnx 其 中 n = 1,.….,N。 因 此 不 同 目标 变量 的 回归 问题 在 这 
里 被 分 解 开 ， 并 且 我 们 只 需要 计算 一 个 伪 逆 抢 阵 亚 ; ， 这 个 矩阵 是 被 所 有 向 量 wx 所 共享 的 。 

推广 到 具有 任意 协 方差 矩阵 的 一 般 的 高 斯 噪声 分 布 是 很 直接 的 。 与 之 前 一 样 ， 这 个 问题 可 以 
被 分 解 为 K 个 独立 的 回归 问题 。 这 种 结果 毫 不 令 人 惊讶 ， 因 为 参数 WW 只 定义 了 高 斯 噪声 分 布 的 
均值 ， 并 且 我 们 从 2.3.4 节 中 知道 多 元 高 斯 分 布 均值 的 最 大 似 然 解 与 协 方差 无 关 。 从 现在 开始 ， 
为 了 简单 起 见 ， 我 们 值 考虑 单一 目标 变量 的 情形 。 
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3.2 偏 置 -方差 分 解 


目前 为 止 ， 我 们 对 于 回归 的 线性 模型 的 讨论 中 ， 我 们 假定 了 基 函 数 的 形式 和 数量 都 是 固定 
的 。 正 如 我 们 在 第 1 章 中 看 到 的 那样 ， 如 果 使 用 有 限 规模 的 数据 集 来 训练 复杂 的 模型 ， 那 么 使 用 
最 大 似 然 方 法 ， 或 者 等 价 地 ， 使 用 最 小 平方 方法 ， 会 导致 严重 的 过 拟 合 问题 。 然 而 ， 通 过 限制 
基 函 数 的 数量 来 避免 过 拟 合 问题 有 一 个 负 作 用 ， 即 限制 了 模型 描述 数据 中 有 趣 且 重要 的 规律 的 
灵活 性 。 虽 然 引 入 正则 化 项 可 以 控制 具有 多 个 参数 的 模型 的 过 拟 合 问题 ， 但 是 这 就 产生 了 一 个 
问题 : 如 何 确定 正则 化 系数 和 的 合适 的 值 。 同 时 关于 权 值 w 和 正则 化 系数 和 来 最 小 化 正则 化 的 误 
差 函 数 显然 不 是 一 个 正确 的 方法 ， 因 为 这 样 做 会 使 得 入 = 0， 从 而 产生 非 正则 化 的 解 。 

正如 我 们 在 之 前 的 章节 中 看 到 的 那样 ， 过 拟 合 现象 确实 是 最 大 似 然 方法 的 一 个 不 好 的 性 质 。 
但 是 当 我 们 在 使 用 贝 叶 斯 方法 对 参数 进行 求 和 或 者 积分 时 ， 过 拟 合 现象 不 会 出 现 。 本 章 中 ,我 
们 会 稍微 深入 地 从 贝 叶 斯 观点 讨论 模型 的 复杂 度 。 但 是 ， 在 进行 这 样 的 讨论 之 前 ， 从 频率 学 家 
的 观点 考虑 一 下 模型 的 复杂 度 问 题 是 很 有 指导 意义 的 。 这 种 频率 学 家 的 观点 被 称 为 偏 置 -方差 折 
中 (bias-variance trade-off) 。 虽 然 我 们 将 在 线性 基 函 数 模 型 中 介绍 这 个 概念 ， 因 为 这 样 介 绍 可 
以 使 用 简单 的 例子 来 说 明 一 些 基 本 的 思想 ， 但 是 实际 上 这 种 讨论 有 着 更 加 普遍 的 适用 性 。 

在 1.5.5 节 ， 当 我 们 讨论 回归 问题 的 决策 论 时 ， 我 们 考虑 了 不 同 的 损失 函数 。 一 旦 我 们 知道 了 
条 件 概 率 分 布 p(t | £)， 每 一 种 损失 函数 都 能 够 给 出 对 应 的 最 优 预 测 结果 。 使 用 最 多 的 一 个 选择 
是 平方 损失 函数 ， 此 时 最 优 的 预测 由 条 件 期 望 ( 记 作 h(x)) 给 出 ， 即 

















h(x) = Elt | x] = / tp(t | z) dt (3.30) 


现在 ， 有 必要 区 分 决策 论 中 出 现 的 平方 损失 函数 以 及 模型 参数 的 最 大 似 然 估计 中 出 现 的 平方 和 
误差 函数 。 我 们 可 以 使 用 比 最 小 平方 更 复杂 的 方法 ,例如 正则 化 或 者 纯粹 的 贝 叶 斯 方法 ， 来 确 
定 条 件 概 率 分 布 p(t | x)。 为 了 进行 预测 ， 这 些 方法 都 可 以 与 平方 损失 函数 相 结 合 。 

我 们 在 1.5.5 节 证 明了 平方 损失 函数 的 期 望 可 以 写成 




















EIL| = /ee — h(xz)} p(x) dz +|/ {h(x) —t}2p(z,t) dz dt (3.37) 


回忆 一 下 ， 与 y(z) 无 关 的 第 二 项 ， 是 由 数据 本 身 的 噪声 造成 的 ， 表 示 期 望 损失 能 够 达到 的 最 小 
值 。 第 一 项 与 我 们 对 函数 yz) 的 选择 有 关 ， 我 们 要 找 一 个 y(z) 的 解 ， 使 得 这 一 项 最 小 。 由 于 它 
是 非 负 的 ， 因 此 我 们 希望 能 够 让 这 一 项 的 最 小 值 等 于 零 。 如 果 我 们 有 无 限 多 的 数据 (以 及 无 限 
多 的 计算 资源 ) ,那么 原则 上 我 们 能 够 以 任意 的 精度 寻找 回归 通 数 h(xz)， 这 会 给 出 y(z) 的 最 优 
解 。 然 而 ， 在 实际 应 用 中 ， 我 们 的 数据 集 D 只 有 有 限 的 入 个 数据 点 ， 从 而 我 们 不 能 够 精确 地 知 
道 回归 遂 数 h(x)。 

如 果 我 们 使 用 由 参数 向 量 w 控 制 的 函数 y(x,w) 对 h(z) 建 模 ， 那 么 从 贝 叶 斯 的 观点 来 看 ， 我 
们 模型 的 不 确定 性 是 通过 w 的 后 验 概率 分 布 来 表示 的 。 但 是 ， 频 率 学 家 的 方法 涉及 到 根据 数据 
集 D 对 ww 进行 点 估计 ， 然 后 试 着 通过 下 面 的 思想 实验 来 表示 估计 的 不 确定 性 。 假 设 我 们 有 许多 
数据 集 ， 每 个 数据 集 的 大 小 为 N， 并 且 每 个 数据 集 都 独立 地 从 分 布 p(t, zz) 中 抽取 。 对 于 任意 给 
定 的 数据 集 D， 我 们 可 以 运行 我 们 的 学 习 算 法 ， 得 到 一 个 预测 函数 y(x;D)。 不 同 的 数据 集会 给 
出 不 同 的 函数 ， 从 而 给 出 不 同 的 平方 损失 的 值 。 这 样 ， 特 定 的 学 习 算 法 的 表现 就 可 以 通过 取 各 
个 数据 集 上 的 表现 的 平均 值 来 进行 评估 。 

考虑 公式 (3.37) 的 第 一 项 的 被 积 函 数 ， 对 于 一 个 特定 的 数据 集 D， 它 的 形式 为 


{y(z;D) — h(x)} (3.38) 


由 于 这 个 量 与 特定 的 数据 集 D 相 关 ， 因 此 我 们 对 所 有 的 数据 集 取 平 均 。 如 果 我 们 在 括号 内 加 上 
然后 减 去 Eply(x;D)]， 然 后 展开 ， 我们 有 


{y(2;D) — Eply(z; D)] + Eply(x; D)] — h(2)} 
={y(z;D) — Eply(z;D)]} + {Eply(x;D)] — h(2)} (3.39) 
+2{y(2;D) — Eply(x; D)]}{Eply(x; D)] — h(x)} 
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我 们 现在 关于 求 期 望 ， 然 后 注意 到 最 后 一 项 等 于 零 ， 可 得 
pp[{y(z;D) 一 zz) 


















































={EpB(z;D)] -zz)} + Ep[{y(7;D) — Eply(x; D)]}" (3.40) 
( 偏 置 )? 方差 


我 们 看 到 ，y(x;D) 与 回归 通 数 (zx) 的 差 的 平方 的 期 望 可 以 表示 为 两 项 的 和 。 第 一 项 ， 被 称 为 平 
方 偏 置 (bias) ， 表 示 所 有 数据 集 的 平均 预测 与 预期 的 回归 函数 之 间 的 差异 。 第 二 项 ， 被 称 为 方 
差 (variance) ， 度 量 了 对 于 单独 的 数据 集 ， 模 型 所 给 出 的 解 在 平均 值 附近 波动 的 情况 ， 因 此 也 
就 度量 了 函数 y(z; 刀 ) 对 于 特定 的 数据 集 的 选择 的 敏感 程度 。 稍 后 我 们 会 考虑 一 个 简单 的 例子 ， 
来 直观 地 说 明 这 些 概 念 。 

目前 为 止 ， 我 们 已 经 考虑 了 单一 输入 变量 z 的 情形 。 如 果 我 们 把 这 个 展开 式 带 回 到 公式 
(3.37) 中 ， 那 么 我 们 就 得 到 了 下 面 的 对 于 期 望 平方 损失 的 分 解 






































期 望 损失 = 偏 置 十 方差 十 噪声 G.41) 
其 中 
偏 置 *= | {Eplv(w;D)] = Me)j2pte) da G.42) 
方差 = | Epl{y(x;D) — Eply(x; D)]}?]p(2) dz (3.43) 
噪声 = 人 人 {P(z) —t}2p(z,t) dx dt (3.44) 


现在 ， 偏 置 和 方差 指 的 是 积分 后 的 量 。 

我 们 的 目标 是 最 小 化 期 望 损失 ， 它 可 以 分 解 为 〈 平 方 ) 偏 置 、 方 差 和 一 个 常数 噪声 项 的 
和 。 正 如 我 们 将 看 到 的 那样 ， 在 偏 置 和 方差 之 间 有 一 个 折 中 。 对 于 非常 灵活 的 模型 来 说 ， 
偏 置 较 小 ， 方差 较 大 。 对 于 相对 固定 的 模型 来 说 ， 偏 置 较 大 ， 方差 较 小 。 有 着 最 优 预 测 能 
力 的 模型 时 在 偏 置 和 方差 之 间 取 得 最 优 的 平衡 的 模型 。 这 里 通过 第 1 章 讨 论 过 的 正弦 数据 集 
来 说 明 。 我 们 产生 了 100 个 数据 集合 ， 每 个 集合 都 包含 N = 25 个 数据 点 ， 都 是 独立 地 从 正弦 
曲线 h(x) = sin(2rz) 抽 取 的 。 数 据 集 的 编号 为 ! = 1,.….,LK， 其 中 上 == 100， 并 且 对 于 每 个 数据 
集 DW ， 我 们 通过 最 小 化 正则 化 的 误差 函数 (3.27) 拟 合 了 一 个 带 有 24 个 高 斯 基 函 数 的 模型 ， 然 
后 给 出 了 预测 函数 yo)(z)， 如 图 3.5 所 示 。 第 一 行 对 应 着 较 大 的 正则 化 系数 入， 这 样 的 模型 的 方差 
很 小 〈 因 为 左 侧 图 中 的 红色 曲线 看 起 来 很 相似 ) ， 但 是 偏 置 很 大 〈 因 为 右 侧 图 中 的 两 条 曲线 看 
起 来 相当 不 同 ) 。 相 反 ， 在 最 后 一 行 ， 正 则 化 系数 和 很 小 ， 这 样 模 型 的 方差 较 大 (因为 左 侧 图 中 
的 红色 曲线 变化 性 相当 大 ) ,但 是 偏 置 很 小 (因为 平均 拟 合 的 结果 与 原始 正弦 曲线 十 分 吻 
合 ) 。 注 意 ， 把 M = 25 这 种 复杂 模型 的 多 个 解 进行 平均 ， 会 产生 对 于 回归 函数 非常 好 的 拟 合 ， 
这 表明 求 平 均 是 一 个 很 好 的 步骤 。 事 实 上 ， 将 多 个 解 加 权 平 均 是 贝 叶 斯 方法 的 核心 ， 昌 然 这 种 
求 平 均 针 对 的 是 参数 的 后 验 分 布 ， 而 不 是 针对 多 个 数据 集 。 

对 于 这 个 例子 ,我们 也 可 以 定量 地 考 罕 偏 置 -方差 折 中 。 平 均 预 测 由 下 式 求 出 








L 
pr) = 7 ya (G45) 
l=1 


并 且 积 分 后 的 平方 偏 置 以 及 积分 后 的 方差 为 


偏 置 ?= 襄 》 {F(zn) 一 Man) G.46 
n=1 
Te 
方差 N > 大 >》 {yO (en) y(zn)} (3.47) 
n=1 (三 并 
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图 3.5: 模型 复杂 度 对 于 偏 置 和 方差 的 依赖 的 说 明 。 模 型 的 复杂 度 由 正则 化 参数 控制， 数据 集 是 第 1 章 中 
的 正 弱 数 据 。 有 工 = 100 个 数据 集 ， 每 个 数据 集 有 N = 25 个 数据 点 ， 每 个 模型 有 24 个 高 斯 基 函 数 ， 从 而 
参数 的 总 数 为 M = 25 (包括 偏 置 参数 ) 。 左 侧 一 列 给 出 了 对 于 不 同 的 ln 和 值 ， 根 据 数据 集 拟 合 模型 的 结 
果 。 为 了 清晰 起 见 ， 我 们 只 给 出 了 100 个 拟 合 模型 中 的 20 个 。 右 侧 一 列 给 出 了 对 应 的 100 个 拟 合 的 均值 
(红色 ) 以 及 用 于 生成 数据 集 的 正弦 函数 〈 绿 色 ) 。 
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人 (bias) 


variance 











(bias) + variance 
test error 











图 3.6: 平方 偏 置 和 方差 的 图 像 ， 以 及 它们 的 加 和 ， 对 应 于 图 3.5 给 出 的 结果 。 同 样 给 出 的 还 有 大 小 为 1000 
个 数据 点 的 测试 数据 的 平均 测试 误差 。( 偏 置 )? 十 方差 的 最 小 值 出 现在 In 和 = 一 0.31 的 位 置 ， 它 接近 于 在 
测试 数据 上 取得 最 小 误差 的 位 置 。 


其 中 由 概率 分 布 p(z) 加 权 的 z 的 积分 由 来 自 那 个 概率 分 布 的 有 限 数据 点 的 加 和 来 近似 。 图 3.6 给 出 
了 这 些 量 以 及 它们 的 求 和 关于 ln ^ 的 函数 图 像 。 我 们 看 到 ， 小 的 和 使 得 模型 对 于 各 个 数据 集 里 的 
噪声 的 拟 合 效果 非常 好 ， 导 致 了 较 大 的 方差 。 相 反 ， 大 的 和 把 权 值 参数 拉 向 零 ， 导 致 了 较 大 的 偏 


置 。 

虽然 偏 置 -方差 分 解 能 够 从 频率 学 家 的 角度 对 模型 的 复杂 度 提供 一 些 有 趣 的 认识 ,但 是 它 的 
实用 价值 很 有 限 。 这 是 因为 偏 置 -方差 分 解 依赖 于 对 所 有 的 数据 集 求 平均 ， 而 在 实际 应 用 中 我 们 
只 有 一 个 观测 数据 集 。 如 果 我 们 有 大 量 的 已 知 规模 的 独立 的 训练 数据 集 ， 那 么 我 们 最 好 的 方法 
是 把 它们 组 合成 一 个 大 的 训练 集 ， 这 显然 会 降低 给 定 复杂 度 的 模型 的 过 拟 合 程 度 。 

由 于 有 这 么 多 局 限 性 ， 因 此 我 们 在 下 一 广 里 将 讨论 线性 基 轴 数 模型 的 贝 叶 斯 观点 。 它 不 仅 提 
供 了 对 于 过 拟 合 现象 的 深刻 认识 ， 还 提出 了 解决 模型 复杂 度 问 题 的 实用 的 技术 。 


3.3” 贝 叶 斯 线性 回归 


在 我 们 讨论 使 用 最 大 似 然 方 法 设置 线性 回归 模型 的 参数 时 ， 我 们 已 经 看 到 由 基 函 数 的 数量 控 
制 的 模型 的 复杂 度 需 要 根据 数据 集 的 规模 进行 调整 。 为 对 数 似 然 函 数 增加 一 个 正则 化 项 意味 着 
模型 的 复杂 度 可 以 通过 正则 化 系数 的 值 进行 控制 ,虽然 基 沙 数 的 数量 和 形式 的 选择 仍然 对 于 确 
定 模型 的 整体 行为 十 分 重要 。 

这 就 产生 了 对 于 特定 的 应 用 确定 合适 的 模型 复杂 度 的 问题 。 这 个 问题 不 能 简单 地 通过 最 大 化 
似 然 函数 来 确定 ， 因 为 这 总 会 产生 过 于 复杂 的 模型 和 过 拟 合 现象 。 独 立 的 额外 数据 能 够 用 来 确 
定 模型 的 复杂 度 ， 正 如 1.3 节 所 说 的 那样 ， 但 是 这 需要 较 大 的 计算 量 ， 并 且 浪 费 了 有 价值 的 数 
据 。 因 此 我 们 转 而 考虑 线性 回归 的 贝 叶 期 方法， 这 会 避免 最 大 似 然 的 过 拟 合 问题 ， 也 会 引出 使 
用 训练 数据 本 身 确定 模型 复杂 度 的 自动 化 方法 。 与 之 前 一 样 ， 为 了 简单 起 见 ， 我 们 只 考虑 单一 
目标 变量 t 的 情形 。 对 于 多 个 目标 变量 情形 的 推广 是 很 直接 的 ， 与 3.1.5 节 的 讨论 很 类 似 。 





3.3.1 ”参数 分 布 
关于 线性 拟 合 的 贝 叶 斯 方法 的 讨论 ， 我 们 首先 引入 模型 参数 ww 的 先 验 概率 分 布 。 现 在 这 个 阶 
段 ， 我 们 把 噪声 精度 参数 8 当做 已 知 常数 。 首 先 ， 我们 注意 到 ， 由 公式 (3.10) 定义 的 似 然 函 
数 p(t | ww) 是 ww 的 二 次 函数 的 指数 形式 。 于 是 对 应 的 共 思 先 验 是 高 斯 分 布 ， 形 式 为 
p(w) = N(w | mo, So) (3.48) 
均值 为 mo， 协 方差 为 So。 


接 下 来 我 们 计算 后 验 分 布 ， 它 正比 于 似 然 函数 与 先 验 分 布 的 乘积 。 由 于 共 生 高 斯 先 验 分 布 的 
选择 ， 后 验 分 布 也 将 是 高 斯 分 布 。 我 们 可 以 对 指数 项 进行 配 平方 ， 然 后 使 用 归 一 化 的 高 斯 分 
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布 的 标准 结果 找到 归 一 化 系数 ， 这 样 就 计算 出 了 后 验 分 布 的 形式 。 但 是 ， 我 们 在 推导 公式 
(2.116) 已 经 进行 了 必要 的 工作 ， 这 让 我 们 能 够 直接 写 出 后 验 概率 分 布 的 形式 


p(w | t) 二 N(w | MN, SN) (3.49) 

其 中 
my = SN(S5 mo + BETt) (3.50) 
Sv =57!'+PE'® (3.51) 


注意 ， 由 于 后 验 分 布 是 高 斯 分 布 ， 它 的 众 数 恰好 与 它 的 均值 相同 。 因 此 最 大 后 验 权 向 量 的 结果 
就 是 ww4P = mn。 如 果 我 们 考虑 一 个 无 限 宽 的 先 验 So = a-1T， 其 中 oa 一 0， 那么 后 验 概率 分 
布 的 均值 mw 就 变 成 了 由 公式 (3.15) 给 出 的 最 大 似 然 值 wxwrz。 类似 地 ， 如 果 = 0， 那 么 后 验 
概率 分 布 就 变 成 了 先 验 分 布 。 此 外 ， 如 果 数 据点 是 顺序 到 达 的 ， 那 么 任何 一 个 阶段 的 后 验 概率 
分 布 都 可 以 看 成 后 续 数 据点 的 先 验 。 此 时 新 的 后 验 分 布 再 次 由 公式 〈3.49) 给 出 。 

对 于 本 章 的 剩余 部 分 ， 为 了 简化 起 见 ， 我 们 将 考虑 高 斯 先 验 的 一 个 特定 的 形式 。 具 体 来 说 ， 
我 们 考虑 零 均值 各 向 同性 高 斯 分 布 。 这 个 分 布 由 一 个 精度 参数 a 控 制 ， 即 





p(w|a)=N(w|0,o7 7) (3.52) 

对 应 的 w 的 后 验 概率 分 布 由 公式 (3.49) 给 出 ， 其 中 
my 一 GBSN 理 人 (3.53) 
SN =al+pE’'® (3.54) 
后 验 概率 分 布 的 对 数 由 对 数 似 然 函数 与 先 验 的 对 数 求 和 的 方式 得 到 。 它 是 ww 的 函数 ， 形 式 为 
Inp(w |t) = a 于 -wo7g(zn) 有 -or 十 常数 G.55) 


于 是 ， 后 验 分 布 关于 w 的 最 大 化 等 价 于 对 平方 和 误差 函数 加 上 一 个 二 次 正则 项 进行 最 小 化 。 正 
则 项 对 应 于 公式 (3.27) ， 其 中 和 二， 

我 们 可 以 使 用 直线 拟 合 的 简单 的 例子 来 说 明 线性 基 国 数 的 贝 叶 斯 学 习 过 程 ， 以 及 后 验 概 
率 分 布 的 顺序 更 新 过 程 。 考 虑 一 个 单一 输入 变量 z， 一 个 单一 目标 变量 {， 以 及 一 个 形式 
为 g(z,ao) = wo 十 wiz 的 线性 模型 。 由 于 这 个 模型 只 有 两 个 可 调节 参数 ， 因 此 我 们 可 以 直接 
在 参数 空间 中 画 出 先 验 分 布 和 后 验 分 布 。 我 们 从 函数 /lz,a) = ao + a1z 中 人 工 生成 数据 ， 其 
中 ao = 一 0.3 且 a1 = 0.5。 生 成 数据 的 方法 为 : 首先 从 均匀 分 布 U(z | -1, D) 中 选择 zx 的 值 ， 然 后 
计算 /lzn,a)， 最 后 增加 一 个 标准 差 为 0.2 的 高 斯 噪声 ， 得 到 目标 变量 各 。 我 们 的 目标 是 从 这 样 的 
数据 中 恢复 co 和 ai 的 值 ， 并 且 我 们 想 研究 模型 对 于 数据 集 规 模 的 依赖 关系 。 这 里 我 们 假设 噪声 
方差 是 已 知 的 ， 因 此 我 们 把 精度 参数 设置 为 它 的 真实 值 8 = (证 ) = 25。 类 似 地 ， 我 们 把 a 固定 
为 20。 我 们 稍 后 会 简短 地 讨论 从 训练 数据 中 确定 wa 和 8 的 值 的 策略 。 图 3.7 给 出 了 当 数据 集 的 规模 
增加 时 贝 叶 斯 学 习 的 结果 ， 还 展示 了 贝 叶 斯 学 习 的 顺序 本 质 ， 即 当 新 数据 点 被 观测 到 的 时 候 ， 
当前 的 后 验 分 布 变 成 了 先 验 分 布 。 花 时 间 仔 细 研 究 一 下 这 幅 图 是 很 值得 的 ， 因 为 它 说 明了 贝 叶 
斯 推断 的 一 些 重要 的 概念 。 这 张 图 的 第 一 行 对 应 于 观测 到 任何 数据 点 之 前 的 情况 ， 给 出 了 w 空 
间 的 先 验 概 率 分 布 的 图 像 ， 以 及 函数 y(z, ww) 的 六 个 样本 ， 这 六 个 样本 的 w 都 是 从 先 验 概率 分 布 
中 抽取 的 。 在 第 二 行 ， 我 们 看 到 了 观测 到 一 个 数据 点 之 后 的 情形 。 数 据点 的 位 置 (2, 台 由 右 侧 一 
列 中 的 蓝 色 圆圈 表示 。 左 侧 一 列 是 对 于 这 个 数据 点 的 似 然 函 数 p(t,w) 关 于 w 的 函数 图 像 。 注 
意 ， 似 然 函数 提供 了 一 个 温和 的 限制 ， 即 直线 必须 穿 过 数据 点 附近 的 位 置 ， 其 中 附近 位 置 的 范 
围 由 噪声 精度 6 确定 。 为 了 进行 对 比 ， 用 来 生成 数据 集 的 真实 参数 值 oo = -0.3 以 及 ai = 0.5 在 图 
3.7 的 左 侧 一 列 被 标记 为 白色 十 字 。 如 果 我 们 把 这 个 似 然 函数 与 第 一 行 的 先 验 概率 相 乘 ， 然 后 归 
一 化 ,我们 就 得 到 了 第 二 行 中 间 的 图 给 出 的 后 验 概率 分 布 。 从 这 个 后 验 概率 分 布 中 抽取 tw 的 样 
本 ， 对 应 的 回归 函数 y(z,ao) 被 画 在 了 右 侧 一 列 的 途中 。 注 意 ， 这 些 样本 直线 全 部 穿 过 数据 点 的 
附近 位 置 。 这 张 图 的 第 三 行 展示 了 观测 到 第 二 个 数据 点 的 效果 。 与 之 前 一 样 ， 这 个 数据 点 由 右 
侧 一 列 的 蓝 色 圆圈 表示 。 第 二 个 数据 点 自身 对 应 的 似 然 函 数 在 左 侧 一 列 的 图 中 给 出 。 如 果 我 们 
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把 这 个 似 然 函数 与 第 二 行 的 后 验 概率 分 布 相 乘 ， 我 们 就 得 到 了 第 三 行 中 间 一 列 的 图 给 出 的 后 验 
概率 分 布 。 注 意 ， 这 个 后 验 概率 分 布 与 我 们 将 原始 的 先 验 分 布 结合 两 个 数据 点 的 似 然 函 数 得 到 
的 后 验 概率 分 布 完全 相同 。 现 在 ， 后 验 概率 分 布 被 两 个 数据 点 影响 。 由 于 两 个 点 足够 定义 一 条 
直线 ， 因 此 目前 已 经 得 到 了 相对 较 好 的 后 验 概率 分 布 。 从 这 个 后 验 分 布 中 抽取 的 样本 产生 了 第 
三 列 中 红色 的 函数 ， 我 们 看 到 这 些 函 数 同时 穿 过 了 两 个 数据 点 的 附近 。 第 四 行 展示 了 观测 到 20 
个 数据 点 的 效果 。 左 侧 的 图 展示 了 第 20 个 数据 点 自身 的 似 然 函数 ， 中 间 的 图 展示 了 融合 了 20 次 
观测 信息 的 后 验 概 率 分 布 。 注 意 与 第 三 行 相 比 ， 这 个 后 验 概率 分 布 变 得 更 加 尖锐 。 在 无 穷 多 个 
数据 点 的 极限 情况 下 ， 后 验 概 率 分 布 会 变 成 一 个 Delta 函 数 。 这 个 函数 的 中 心 是 用 白色 十 字 标 记 
出 的 真实 参数 值 。 
也 可 以 考虑 参数 的 其 他 形式 的 先 验 分 布 。 例 如 ， 我 们 可 以 推广 高 斯 先 验 分 布 ， 得 到 


Q /a + 1 a! 
sl- | | exp > G.59 


其 中 g = 2 的 情形 对 应 于 高 斯 分 布 ， 并 且 只 有 在 这 种 情形 下 的 先 验 分 布 才 是 公式 (3.10) 给 出 的 
似 然 函数 的 共 轿 先 验 。 找 到 w 的 后 验 概 率 分 布 的 最 大 值 对 应 于 找到 正则 化 误差 函数 (3.29) 的 最 
小 值 。 在 高 斯 先 验 的 情况 下 ， 后 验 概率 分 布 的 众 数 等 于 均值 ， 但 是 如 果 g 入 2， 这 个 性 质 就 不 成 


YT。 








3.3.2 ”预测 分 布 
在 实际 应 用 中 ， 我 们 通常 感 兴趣 的 不 是 ww 本 身 的 值 ， 而 是 对 于 新 的 x 值 预 测 出 t 的 值 。 这 需要 
我 们 计算 出 预测 分 布 (predictive distribution) ， 定 义 为 
p(t |t,a,8)= fr | w, BP)p(w |t,a, 6B) dw (3.57) 


其 中 t 是 训练 数据 的 目标 变量 的 值 组 成 的 向 量 。 并 且 ， 为 了 简化 记号 ， 我 们 在 右 侧 省 略 了 条 件 概 
率 中 出 现 的 输入 向 量 。 目 标 变量 的 条 件 概率 分 布 ptt | w,w, 5) 由 公式 (3.8) 给 出 ， 后 验 分 布 由 
公式 〈3.49) 给 出 。 我 们 看 到 公式 (3.57) 涉及 到 两 个 高 斯 分 布 的 卷 积 ， 因 此 使 用 2.3.3 节 的 公式 
(2.115) 的 结果 ， 我 们 看 到 预测 分 布 的 形式 为 


plt| ,t,o,B) =N(t | mN P(r), oN(z)) (3.58) 


其 中 预测 分 布 的 方差 cN(z) 为 








ro) = 5+ 00) Suple) .59) 
公式 (3.59) 的 第 一 项 表示 数据 中 的 噪声 ， 而 第 二 项 反映 了 与 参数 ww 关联 的 不 确定 性 。 由 于 噪声 
和 忆 的 分 布 是 相互 独立 的 高 斯 分 布 ， 因 此 它们 的 值 是 可 以 相 加 的 。 注 意 ， 当 额外 的 数据 点 被 观 
测 到 的 时 候 ， 后 验 概率 分 布 会 变 窗 。 从 而 可 以 证 明 出 cyw (x) < ocx(z) (Qazaz etal., 1997) 。 
在 极限 一 co 的 情况 下 ， 公 式 (3.59) 的 第 二 项 趋 于 零 ， 从 而 预测 分 布 的 方差 只 与 参数 6 控制 
的 具有 可 加 性 的 噪声 有 关 。 

为 了 说 明 贝 叶 斯 线性 回归 模型 的 预测 分 布 ， 让 我 们 回 到 第 1.1 节 人 工 生成 的 正弦 数据 集 。 在 
图 3.8 中 ， 我 们 调整 一 个 由 高 斯 基 函 数 线性 组 合 的 模型 ， 使 其 适应 于 不 同 规模 的 数据 集 ， 然 后 观 
察 对 应 的 后 验 概率 分 布 。 这 里 ， 绿 色 曲 线 对 应 着 产生 数据 点 的 函数 sin(2rz) 〈 带 有 附加 的 高 斯 噪 
声 ) 。 大 小 为 N = 1,N = 2,N = 4 和 N = 25 的 数据 集 在 四 幅 图 中 用 蓝 色 圆圈 表示 。 对 于 每 幅 
图 ， 红 色 曲 线 是 对 应 的 高 斯 预测 分 布 的 均值 ， 红 色 阴 影 区 域 是 均值 两 侧 的 一 个 标准 差 范围 的 区 
域 。 注 意 ， 预 测 的 不 确定 性 依赖 于 z， 并 且 在 数据 点 的 邻 域内 最 小 。 还 要 注意 ， 不 确定 性 的 程度 
随 着 观测 到 的 数据 点 的 增多 而 逐渐 减 小 。 

图 3.8 中 的 图 像 只 给 出 了 每 个 点 处 的 预测 方差 与 x 的 函数 关系 。 为 了 更 加 深刻 地 认识 对 于 不 同 
的 z 值 的 预测 之 间 的 协 方差 ， 我 们 可 以 从 w 的 后 验 概率 分 布 中 抽取 样本 ， 然 后 画 出 对 应 的 函 
数 y(zx,w)， 如 图 3.9 所 示 。 
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likelihood priorposterior data Space 
1 1 








， 顺序 贝 叶 斯 学 习 的 例子 。 模 型 是 一 个 简单 的 线性 模型 ， 形 式 为 y(z,w) = wo + wz。 本 图 的 详细 描 
述 见 正文 。 
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图 3.8: 包含 9 个 高 斯 基 函 数 〈3.4) 的 模型 的 预测 分 布 (3.58) ,使 用 了 1.1 节 的 人 工 生成 的 正弦 数据 集 。 详 
细 的 讨论 见 正文 。 
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图 3.9: 函数 y(zx,w) 的 图 像 ， 使 用 了 服从 w 上 的 后 验 概率 分 布 的 样本 ， 对 应 于 图 3.8。 


如 果 我 们 使 用 局 部 的 基 函 数 〈 例 如 高 斯 基 函 数 ) ， 那 么 在 距离 基 函 数 中 心 比较 远 的 区 域 ， 公 
式 (3.59) 给 出 的 预测 方差 的 第 二 项 的 贡献 将 会 趋 于 零 ， 只 剩 下 噪声 的 贡献 6-: 。 因 此 ， 当 对 基 
函数 所 在 的 区 域 之 外 的 区 域 进行 外 揪 的 时 候 ， 模 型 对 于 它 做 出 的 预测 会 变 得 相当 确定 ， 这 通常 
不 是 我 们 想 要 的 结果 。 通 过 使 用 被 称 为 高 斯 过 程 的 另 一 种 贝 叶 斯 回归 方法 ， 这 个 问题 可 以 被 避 
免 。 

注意 ， 如 果 w 和 6 都 被 当成 未 知 的 ， 那 么 根据 2.3.6 节 的 讨论 ， 我 们 可 以 引入 一 个 由 高 
0 (Denison et al., 2002) 。 在 这 种 情况 下 ， 预 测 分 布 

是 一 个 学 生 t 分 


3.3.3 ”等 价 核 


公式 (3.53) 给 出 的 线性 基 函 数 模型 的 后 验 均值 解 有 一 个 有 趣 的 解释 ， 这 个 解释 为 核 方 法 
(包括 高 斯 过 程 ) 提供 了 舞台 。 如 果 我 们 把 公式 (3.53) 代入 表达 式 (3.3) ,我 们 看 到 预测 均 
值 可 以 写成 下 面 的 形式 





N 
yz,mN) = mh Or) = BO(2) SNE t= > PO(7) SNb(rn)tn (3.60) 


n=1 


其 中 SN 由 公式 (3.51) 定义 。 因 此 在 点 zx 处 的 预测 均值 由 训练 集 目标 变量 t 的 线性 组 合 给 出 ， 即 


y(z,mN) 2 ZT, Tn)tn (3.61) 
其 中 ， 函 数 
k(x, 72') = BOL) SN9(z") (3.62) 
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图 3.10: 图 3.1 中 的 高 斯 基 函 数 的 等 价 核 k(x, 2 )， 图 中 给 出 了 zx 关于 zx' 的 图 像 ， 以 及 通过 这 个 和 矩阵 的 三 
个 切片 ， 对 应 于 三 个 不 同 的 x 值 。 用 来 生成 这 个 核 的 数据 集 由 zx 的 200 个 值 组 成 ，z 均 匀 地 分 布 在 区 


间 ( 一 1,1) 中 。 
0.02 0.02 
OMVN: /x 0 x 
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图 3.11: z = 0 时 的 等 价 核 KLz,z) 的 例子 ， 图 中 给 出 了 关于 z 的 函数 图 像 。 左 图 对 应 于 多 项 式 基 函数 ， 右 
图 对 应 于 sigmoid 基 函数 ， 如 图 3.1 所 示 。 注 意 ， 这 些 是 z 的 局 部 函数 ， 即 使 对 应 的 基 函 数 不 是 局 部 的 。 


被 称 为 平滑 矩阵 (smoother matrix) 或 者 等 价 核 (equivalent kernel) 。 像 这 样 的 回归 函数 ， 通 过 
对 训练 集 里 目标 值 进 行 线性 组 合 做 预测 ， 被 称 为 线性 平滑 (linear smoother) 。 注 意 ， 等 价 核 依 
赖 于 来 自 数据 集 的 输入 值 z" ， 因 为 这 些 输入 值 出 现在 了 SN 的 定义 中 。 图 3.10 给 出 了 高 斯 基 函 数 
的 情形 下 的 等 价 核 。 图 中 给 出 了 三 个 不 同 的 z 值 的 情况 下 ， 核 函数 KE(z, 7 与 7 的 函数 关系 。 我 们 
看 到 ， 它 们 在 局 限 在 z 的 周围 ， 因 此 在 z 处 的 预测 分 布 的 均值 y(x, mn) 可 以 通过 对 目标 值 加 权 组 
合 的 方式 获得 。 距 离 z 较 近 的 数据 点 可 以 赋 一 个 较 高 的 权 值 ， 而 距离 z 较 远 的 数据 点 可 以 赋 一 个 
较 低 的 权 值 。 直 观 来 看 ， 与 远 处 的 证 据 相 比 ， 我 们 把 局 部 的 证 据 赋 予 更 高 的 权 值 似乎 是 更 
合理 的 。 注 意 ， 这 种 局 部 性 不 仅 对 于 局 部 的 高 斯 基 函 数 成 立 ， 对 于 非 局 部 的 多 项 式 基 函数 
和 sigmoid 基 函数 也 成 立 ， 如 图 3.11 所 示 。 
我 们 还 可 以 获得 更 多 的 关于 等 价 核 的 认识 。 考 虑 y(z) 和 v(x 的 协 方差 


covIy(2),y(2)] = covIb(z) w, rw $2)] 
= (2) SNG(2") = Bk(z, 2) 


其 中 我 们 使 用 了 公式 (3.49) 和 公式 (3.62) 。 根 据 等 价 核 的 形式 ， 我 们 可 以 看 到 在 附近 的 点 处 
的 预测 均值 相关 性 较 高 ， 而 对 于 距离 较 远 的 点 对 ， 相 关 性 就 较 低 。 

图 3.8 给 出 的 预测 分 布 让 我 们 能 够 可 视 化 各 个 点 处 预测 的 不 确定 性 (由 公式 (3.59) 控制 ) 。 
然而 ， 通 过 从 ww 的 后 验 分 布 中 抽取 样本 并 且 在 图 3.9 中 面 出 对 应 的 模型 函数 y(x,w)， 我 们 可 视 化 
了 后 验 概率 分 布 中 位 于 两 个 (或 者 更 多 ) z 值 处 的 y 值 之 间 的 不 确定 性 (由 等 价 核 控制 ) 。 

用 核 函 数 表 示 线 性 回归 给 出 了 解决 回归 问题 的 另 一 种 方法 。 我 们 不 引入 一 组 基 函 数 ( 它 隐 式 
地 定义 了 一 个 等 价 的 核 ) ， 而 是 直接 定义 一 个 局 部 的 核 函 数 ， 然 后 在 给 定 观测 数据 集 的 条 件 
下 ， 使 用 这 个 核 函 数 对 新 的 输入 变量 z 做 预测 。 这 就 引出 了 用 于 回归 问题 (以 及 分 类 问题 ) 的 
一 个 很 实用 的 框架 ， 被 称 为 高 斯 过 程 (Gaussian process) 。 这 将 在 6.4 节 详细 讨论 。 

我 们 已 经 看 到 ， 一 个 等 价 核定 义 了 模型 的 权 值 。 通 过 这 个 权 值 ， 训 练 数据 集 里 的 目标 值 被 组 





(3.63) 
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合 ， 然 后 对 新 的 z 值 做 预测 。 可 以 证 明 这 些 权 值 的 和 等 于 1， 即 
N 
> k(x, zn)=1 (3.64 
n=1 


对 于 所 有 的 x 值 都 成 立 。 这 个 直观 上 令 人 兴奋 的 结果 可 以 很 容易 地 用 非 形式 化 的 方式 证 明 出 
来 。 我 们 注意 到 ， 这 个 加 和 等 价 于 对 于 所 有 的 n 都 有 = 1 的 目标 数据 集 的 预测 均值 7?(x)。 假 
设 基 函 数 是 线性 独立 的 ， 且 数据 点 的 数量 多 于 基 函 数 的 数量 ， 并 且 其 中 一 个 基 函 数 是 常量 
(对 应 于 偏 置 参 数 ) ， 那 么 很 明显 我 们 可 以 精确 地 拟 合 训练 数据 ， 因 此 预测 均值 就 是 简单 
的 Xz) = 1， 这 样 我 们 就 可 以 得 到 共识 (3.64) 。 注 意 ， 核 函数 可 以 为 负 也 可 以 为 正 ， 因 此 它 虽 
然 满 足 加 和 限制 ， 但 是 对 应 的 预测 未 必 是 训练 集 的 目标 值 的 凸 组 合 。 

最 后 ， 我 们 注意 到 ， 公 式 (3.62) 给 出 的 等 价 核 满 足 一 般 的 核 函数 共有 的 一 个 重要 性 质 ， 即 
它 可 以 表示 为 非 线性 函数 的 向 量 风 (z) 的 内 积 的 形式 ， 即 


k(x,z) = p(T) (2) (3.65) 


3.4 贝 叶 斯 模型 比较 


在 第 1 章 中 ,我 们 强调 了 过 拟 合 的 问题 ， 也 介绍 了 通过 使 用 交叉 验证 的 方法 ,来 设置 正则 化 
参数 的 值 ， 或 者 从 多 个 模型 中 选择 合适 的 一 人 个。 这里， 我 们 从 贝 叶 斯 的 角度 考虑 模型 选择 的 问 
题 。 在 本 节 中 ， 我 们 的 讨论 是 非常 一 般 的 。 之 后 在 3.5 节 ， 我 们 将 会 看 到 这 些 想法 是 如 何 应 用 到 
线性 回归 的 正则 化 参数 确定 的 问题 中 的 。 

正如 我 们 将 看 到 的 那样 ， 与 最 大 似 然 估 计 相 关联 的 过 拟 合 问题 可 以 通过 对 模型 的 参数 进行 求 
和 或 者 积分 的 方式 (而 不 是 进行 点 估计 ) 来 避免 。 这 样 ， 模 型 可 以 直接 在 训练 数据 上 进行 比 
较 ， 而 不 需要 验证 集 。 这 使 得 所 有 的 数据 都 能 够 被 用 于 训练 ， 并 且 避 免 了 交叉 验证 当中 每 个 模 
型 要 运行 多 次 训练 过 程 的 问题 。 它 也 让 多 个 复杂 度 参 数 可 以 同时 在 训练 过 程 中 被 确定 。 例 如 ， 
在 第 7 章 ， 我 们 会 介绍 相关 向 量 机 (relevance vector machine) ， 这 是 一 个 贝 叶 斯 模型 ， 它 对 于 
每 个 训练 数据 点 都 有 一 个 复杂 度 参 数 。 

模型 比较 的 贝 叶 斯 观点 仅仅 涉及 到 使 用 概率 来 表示 模型 选择 的 不 确定 性 ， 以 及 恰当 地 使 用 概 
率 的 加 和 规则 和 乘积 规则 。 假 设 我 们 想 比 较 工 个 模型 {Mi;}， 其 中 i = 1,...,L。 这 里 ,一 个 模型 
指 的 是 观测 数据 D 上 的 概率 分 布 。 在 多 项 式 曲 线 拟 合 的 问题 中 ， 概 率 分 布 被 定义 在 目标 值 t 上 ， 
而 输入 值 铸 被 假定 为 已 知 的 。 其 他 类 型 的 模型 定义 了 关 和 t 上 的 联合 分 布 。 我 们 会 假设 数据 是 由 
这 些 模型 中 的 一 个 生成 的 ， 但 是 我 们 不 知道 究竟 是 哪 一 个 。 我 们 的 不 确定 性 通过 先 验 概率 分 
布 p(Mi) 表 示 。 给 定 一 个 训练 数据 集 D， 我 们 想 估 计 后 验 分 布 


pMi | D) x p(Mi)p(D | Mi;) (3.66) 


先 验 分 布 让 我 们 能 够 表达 不 同 模型 之 间 的 优先 级 。 让 我 们 简单 地 假设 所 有 的 模型 都 有 相同 的 先 
验 概率 。 比 较 有 意思 的 一 项 是 模型 证 据 (model evidence) p(D | Mi)， 它 表达 了 数据 展现 出 的 
不 同 模型 的 优先 级 ， 我 们 稍 后 会 稍微 详细 地 考察 这 一 项 。 模 型 证 据 有 时 也 被 称 为 边缘 似 然 
(marginal likelihood) ， 因 为 它 可 以 被 看 做 在 模型 空间 中 的 似 然 函 数 ， 在 这 个 空间 中 参数 已 经 
被 求 和 或 者 积分 。 两 个 模型 的 模型 证 据 的 比值 2 器 被 称 为 贝 叶 斯 因子 (Bayes factor) (Kass 
and Raftery, 1995) 。 

一 且 我 们 知道 了 模型 上 的 后 验 概率 分 布 ， 那 么 根据 概率 的 加 和 规则 与 乘积 规则 ， 预 测 分 布 为 

L 
p(t| 2,D) = > pt x, Mi,D)p(Mi | D) (3.67) 

2 一 工 
这 是 混合 分 布 (mixture distribution) 的 一 个 例子 。 这 个 公式 中 ， 整 体 的 预测 分 布 由 下 面 的 
方式 获得 : 对 各 个 模型 的 预测 分 布 p(t | x,Mi,D) 求 加 权 平 均 ， 权 值 为 这 些 模型 的 后 验 概 
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图 3.12: 我 们 可 以 粗略 地 近似 模型 证 据 ， 如 果 我 们 假设 参数 上 的 后 验 概率 分 布 在 众 数 wwap 附 近 有 一 个 尖 


峰 。 


率 p(Mi | D)。 例 如 ， 如 果 我 们 有 两 个 模型 ， 这 两 个 模型 的 后 验 概率 相等 。 一 个 模型 预测 
了 t = oa 附近 的 一 个 很 窗 的 分 布 ， 而 另 一 个 模型 预测 了 t = 8 附近 的 一 个 很 窄 的 分 布 ， 这 样 整体 的 
预测 分 布 是 一 个 双 峰 的 概率 分 布 ， 峰 值 位 于 ! = a 和 t = 5 处 ， 而 不 是 在 t = 吐 * 处 的 一 个 单一 的 模 
型 。 
对 于 模型 求 平均 的 一 个 简单 的 近似 是 使 用 最 可 能 的 一 个 模型 自己 做 预测 。 这 被 称 为 模型 选择 
(model selection) 。 


对 于 一 个 由 参数 ww 控制 的 模型 ， 根 据 概率 的 加 和 规则 和 乘积 规则 ， 模 型 证 据 为 
pDIAD = fp(D lw Mplw | Mi) au (3.68) 


从 取样 的 角度 来 看 ， 边 缘 似 然 函 数 可 以 被 看 成 从 一 个 模型 中 生成 数据 集 刀 的 概率 ， 这 个 模型 的 
参数 是 从 先 验 分 布 中 随机 取样 的 。 还 有 一 件 有 趣 的 事情 是 ， 我 们 注意 到 模型 证 据 恰 好 就 是 在 估 
计 参 数 的 后 验 分 布 时 出 现在 贝 叶 斯 定理 的 分 母 中 的 归 一 化 项 ， 因 为 


(D | w, Mi)p(w | Mi) 
PLD | Mi) 


通过 对 参数 的 积分 进行 一 个 简单 的 近似 ， 我 们 可 以 更 加 深刻 地 认识 模型 证 据 。 首 先 考虑 模型 
有 一 个 参数 w 的 情形 。 这 个 参数 的 后 验 概率 正比 于 P(D | w)p(w)， 其 中 为 了 简化 记号 ， 我 们 省 略 
了 它 对 于 模型 ;的 依赖 。 如 果 我 们 假设 后 验 分 布 在 最 大 似 然 值 wnraP 附 近 是 一 个 尖峰 ， 宽 度 
为 AwF 验 ， 那 么 我 们 可 以 用 被 积 函数 的 值 乘 以 尖峰 的 宽度 来 近似 这 个 积分 。 如 果 我 们 进一步 候 
设 先 验 分 布 是 平 的 ， 宽 度 为 Auw% 迪 ， 即 p(u) = 二 =， 那么 我 们 有 


p(w | D, Ai) = 二 (3.69) 





信也 后 难 
plD)= / ppplo) dw ~ PLD | wrap) EE G70 
屎 先 验 
取 对 数 可 得 、 
Inp(D) ~ lnp(D | wmap) +In Gd (3.71) 
全 和 完 验 


图 3.12 说 明了 这 个 近似 。 第 一 项 表示 拟 合 由 最 可 能 参数 给 出 的 数据 。 对 于 平 的 先 验 分 布 来 说 ， 这 
对 应 于 对 数 似 然 。 第 二 项 用 于 根据 模型 的 复杂 度 来 惩罚 模型 。 由 于 Ai 有 蛤 < 人 ww ， 因 此 这 一 
项 为 负 ， 并 且 随 着 全 ss 的 减 小 ， 它 的 绝对 值 会 增加 。 因 此 ， 如 果 参 数 精确 地 调整 为 后 验 分 布 的 
数据 ,那么 惩罚 项 会 很 大 。 

,对 于 一 个 有 M 个 参数 的 模型 ， 我 们 可 以 对 每 个 参数 进行 类 似 的 近似 。 假 设 所 有 的 参数 
的 As 都 相同 ， 我 们 有 


和 A 岂 先 验 











人 Aww 
lInp(D) lInp(D| wuarp)+MIn (2 (3.72) 
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图 3.13: 对 于 三 个 具有 不 同 复杂 度 的 模型 ， 数 据 集 的 概率 分 布 的 图 形 表示 ， 其 中 人 1 是 最 简单 的 ， 人 43 是 
最 复杂 的 。 注 意 ， 概 率 分 布 是 归 一 化 的 。 在 这 个 例子 中 ， 对 于 特定 的 观测 数据 集 Po， 具 有 中 间 复 杂 度 的 
模型 M2 具有 最 大 的 模型 证 据 。 


因此 ， 在 这 种 非常 简单 的 近似 下 ， 复 杂 度 惩罚 项 的 大 小 随 着 模型 中 可 调节 参数 M 的 数量 线性 增 
加 。 随 着 我 们 增加 模型 的 复杂 度 ， 第 一 项 通常 会 增 大 ， 因 为 一 个 更 加 复杂 的 模型 能 够 更 好 地 拟 
合 数据 ， 而 第 二 项 会 减 小 ， 因 为 它 依 赖 于 M。 由 最 大 模型 证 据 确 定 的 最 优 的 模型 复杂 度 需要 在 
这 两 个 相互 竞争 的 项 之 间 进 行 折 中 。 我 们 后 面 会 介绍 这 种 近似 的 一 个 更 加 精炼 的 版 本 ， 那 个 版 
本 依赖 于 后 验 概率 分 布 的 高 斯 近似 。 

通过 图 3.13， 我 们 可 以 进一步 深入 认识 贝 叶 斯 模型 比较 ， 并 且 理 解 边缘 似 然 是 如 何 倾向 于 选 
择 中 等 复杂 度 的 模型 的 。 这 里 ， 横 轴 是 可 能 的 数据 集 构 成 的 空间 的 一 个 一 维 表示 ， 因 此 轴 上 的 
每 个 点 都 对 应 着 一 个 具体 的 数据 集 。 我 们 现在 考虑 三 个 模型 M1, WM? 和 人 Was ， 复 杂 度 依次 增加 。 
假设 我 们 让 这 三 个 模型 自动 产生 样本 数据 集 ， 然 后 观察 生成 的 数据 集 的 分 布 。 任 意 给 定 的 模型 
都 能 够 生成 一 系列 不 同 的 数据 集 ， 这 是 因为 模型 的 参数 由 先 验 概率 分 布控 制 ， 对 于 任意 一 种 参 
数 的 选择 ， 在 目标 变量 上 都 可 能 有 随机 的 噪声 。 为 了 从 具体 的 模型 中 生成 一 个 特定 的 数据 集 ， 
我 们 首先 从 先 验 分 布 p(w) 中 选择 参数 的 值 ， 然 后 对 于 这 些 参 数 的 值 ， 我 们 按照 概率 p(D | w) 对 
数据 进行 采样 。 一 个 简单 的 模型 (例如 ， 基 于 一 阶 多 项 式 的 模型 ) 几乎 没有 变化 性 ， 因 此 生成 
的 数据 集 彼此 之 间 都 十 分 相似 。 于 是 它 的 分 布 p(D) 就 被 限制 在 横 轴 的 一 个 相对 小 的 区 域 。 
相反 ， 一 个 复杂 的 模型 (例如 九 阶 多 项 式 ) 可 以 生成 变化 性 相当 大 的 数据 集 ， 因 此 它 的 分 
布 p(D) 遍 布 了 数据 集 空 间 的 一 个 相当 大 的 区 域 。 由 于 概率 分 布 p(D | 人 fi) 是 归 一 化 的 ， 因 此 我 们 
看 到 特定 的 数据 集 D0 对 中 等 复杂 度 的 模型 有 最 高 的 模型 证 据 。 本 质 上 说 ， 简 单 的 模型 不 能 很 好 
地 拟 合 数据 ， 而 复杂 的 模型 把 它 的 预测 概率 散布 于 过 多 的 可 能 的 数据 集 当 中 ， 从 而 对 它们 当中 
的 每 一 个 赋予 的 概率 都 相对 较 小 。 

贝 叶 斯 模型 比较 框架 中 隐 含 的 一 个 假设 是 ， 生 成 数据 的 真实 的 概率 分 布 包含 在 考虑 的 模型 集 
合 当 中 。 如 果 这 个 假设 确实 成 立 ， 那 么 我 们 我 们 可 以 证 明 ， 平 均 来 看 ， 贝 叶 斯 模型 比较 会 倾向 
于 选择 出 正确 的 模型 。 为 了 证 明 这 一 点 ， 考 虑 两 个 模型 M1 和 M2， 其 中 真实 的 概率 分 布 对 应 于 
模型 Al 。 对 于 给 定 的 有 限 数据 集 ， 确 实 有 可 能 出 现 错误 的 模型 反而 使 贝 叶 斯 因子 较 大 的 事情 。 
但 是 ， 如 果 我 们 把 贝 叶 斯 因子 在 数据 集 分 布 上 进行 平均 ， 那 么 我 们 可 以 得 到 期 望 贝 叶 斯 因子 

p(D | 人 1) 
je ij Ta (3.73) 
上 式 是 关于 数据 的 真实 分 布 求 的 平均 值 。 这 是 Kullback-Leibler 散 度 的 一 个 例子 ， 满 足下 面 的 性 
质 : 如 果 两 个 分 布 相等 ， 则 Kullback-Leibler 散 度 等 于 零 ， 否 则 恒 为 正 。 因 此 平均 来 讲 ， 贝 叶 斯 
因子 总 会 倾向 于 选择 正确 的 模型 。 

我 们 已 经 看 到 ， 贝 叶 斯 框架 避免 了 过 拟 合 的 问题 ， 并 且 使 得 模型 能 够 基于 训练 数据 自身 进行 
对 比 。 但 是 ， 与 模式 识别 中 任何 其 他 的 方法 一 样 ， 贝 叶 斯 方法 需要 对 模型 的 形式 作出 假设 ， 并 
且 如 果 这 些 假设 不 合理 ， 那 么 结果 就 会 出 错 。 特 别 地 ， 我 们 从 图 3.12 可 以 看 出 ， 模 型 证 据 对 先 验 
分 布 的 很 多 方面 都 很 敏感 ， 例 如 在 低 概率 处 的 行为 等 等 。 实 际 上 ， 如 果 先 验 分 布 是 反常 的 ， 那 
么 模型 证 据 无 法 定义 ， 因 为 反常 的 先 验 分 布 有 着 任意 的 缩放 因子 ( 换 句 话说 ， 归 一 化 系数 无 法 
定义 ， 因 为 分 布 根本 无 法 被 归 一 化 ) 。 如 果 我 们 考虑 一 个 正常 的 先 验 分 布 ， 然 后 取 一 个 适当 的 
极限 来 获得 一 个 反常 的 先 验 (例如 高 斯 先 验 中 ， 我 们 令 方差 为 无 穷 大 ) ， 那 么 模型 证 据 就 会 趋 
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于 零 ， 这 可 以 从 公式 (3.70) 和 图 3.12 中 看 出 来 。 但 是 这 种 情况 下 也 可 能 通过 首先 考虑 两 个 模型 
的 证 据 比 值 ， 然 后 取 极 限 的 方式 来 得 到 一 个 有 意义 的 答案 。 

因此 ， 在 实际 应 用 中 ， 一 种 明智 的 做 法 是 ， 保 留 一 个 独立 的 测试 数据 集 ， 这 个 数据 集 用 来 评 
个 最 终 系 统 的 整体 表现 。 





3.5 证 据 近似 


在 处 理 线性 基 函 数 模型 的 纯粹 的 贝 叶 斯 方法 中 ， 我 们 会 引入 超 参数 c 和 2 的 先 验 分 布 ， 然 后 
通过 对 超 参数 以 及 参数 也 求 积 分 的 方式 做 预测 。 但 是 ， 虽 然 我 们 可 以 解析 地 求 出 对 ww 的 积分 或 
者 求 出 对 超 参数 的 积分 ， 但 是 对 所 有 这 些 变量 完整 地 求 积分 是 没有 解析 解 的 。 这 里 我 们 讨论 一 
种 近似 方法 。 这 种 方法 中 ， 我 们 首先 对 参数 岂 求 积分 ， 得 到 边缘 似 然 函数 (marginal likelihood 
function) ， 然 后 通过 最 大 化 边缘 似 然 函 数 ， 确 定 超 参 数 的 值 。 这 个 框架 在 统计 学 的 文献 中 
被 称 为 经 验 贝 叶 斯 (empirical Bayes) (Bernardo and Smith, 1994; Gelman et al., 2004) ,或 者 被 
称 为 第 二 类 最 大 似 然 (type 2 maximum likelihood) (Berger, 1985) ,或 者 被 称 为 推广 的 最 大 
似 然 (generalized maximum likelihood) 。 在 机 器 学 习 的 文献 中 ， 这 种 方法 也 被 称 为 证 据 近 似 
(evidence approximation) (Gull, 1989; MacKay, 1992a) 。 

如 果 我 们 引入 a 和 6 上 的 超 先 验 分 布 ， 那 么 预测 分 布 可 以 通过 对 w, a 和 6 求 积分 的 方法 得 到 ， 
即 


p(t|t) =— 1 / 人 plt | ap,B)jptoltosp)plaB1b dw da dB G.74) 


其 中 p(t | w,B) 由 公式 (3.8) 给 出 ，p(w |t,a,B) 由 公式 (3.49) ， 其 中 mw 和 Sw 分 别 由 公式 

(3.53) 和 公式 (3.54) 定义 。 这 里 ， 为 了 让 记号 简洁 ， 我 们 省 略 了 对 于 输入 变量 z 的 依赖 关 
系 。 如 果 后 验 分 布 pla, 6 |t) 在 @ 和 6 附近 有 尖峰 ， 那 么 预测 分 布 可 以 通过 对 w 积 分 的 方式 简单 地 
得 到 ， 其 中 a 和 6 被 固定 为 @ 和 6， 即 


p(t) pl = /pl lw plw | tt dw (3.75) 
根据 贝 叶 斯 定理 ，a 和 6 的 后 验 分 布 为 
Pla,B |t) x plt | oa, B)p(a, Bb) (3.70) 


如 果 先 验 分 布 相对 比较 平 ， 那 么 在 证 据 框 架 中 ，& 和 6 可 以 通过 最 大 化 边缘 似 然 函数 p(t | a, 6) 来 
获得 。 我 们 接 下 来 会 计算 线性 基 函 数 模 型 的 边缘 似 然 函数 ， 然 后 找到 它 的 最 大 值 。 这 将 使 我 们 
能 够 从 训练 数据 本 身 确定 这 些 超 参数 的 值 ， 而 不 需要 交叉 验证 。 回 忆 一 下 比值 S$ 类似 于 正则 化 
参数 。 

此 外 ， 值 得 注意 的 一 点 是 ， 如 果 我 们 定义 c 和 2 上 的 共 恩 (Gamma) 先 验 分 布 ， 那么 对 公式 
(3.74) 中 的 这 些 超 参数 求 积分 可 以 解析 地 计算 出 来 ， 得 到 ww 上 的 学 生 t 分 布 ( 见 第 2.3.7 节 ) 。 虽 
然 得 到 的 ww 上 的 积分 不 再 有 解析 解 ， 但 是 我 们 可 以 认为 对 这 个 积分 求 近似 会 给 证 据 框架 提供 了 
另 一 种 实用 的 方法 (Buntine and Weigend, 1991) 。 其 中 ， 可 以 使 用 拉 普 拉 斯 近似 方法 ( 见 第 4.4 
节 ) 对 这 个 积分 求 近 似 。 拉 普 拉 斯 近似 方法 的 基础 是 以 后 验 概率 分 布 的 众 数 为 中 心 的 局 部 高 斯 
近似 方法 。 然 而 ， 作 为 刀 的 函数 的 被 积 函 数 的 众 数 通 常 很 不 准确 ， 因 此 拉 普 拉 斯 近似 方法 不 能 
描述 概率 质量 中 的 大 部 分 信息 。 这 就 导致 最 终 的 结果 要 比 最 大 化 证 据 的 方法 给 出 的 结果 更 差 
(MacKay, 1999) 。 

回 到 证 据 框 架 中 ， 我 们 注意 到 有 两 种 方法 可 以 用 来 最 大 化 对 数 证 据 。 我 们 可 以 解析 地 计算 证 
据 函 数 ， 然 后 令 它 的 导数 等 于 零 ， 得 到 了 对 于 a 和 2 的 重新 估计 方程 〈 将 在 3.5.2 节 讨论 ) 。 男 一 
种 方法 是 ， 我 们 使 用 一 种 被 称 为 期 望 最 大 化 〈(EM) 算法 的 方法 ， 这 个 算法 将 在 9.3.4 节 讨论 ， 那 
里 我 们 还 会 证 明 这 两 种 方法 会 收敛 到 同一 个 解 。 














3.5.1 计算 证 据 函 数 
边缘 似 然 通 数 p(t | a,6) 是 通过 对 权 值 参数 外 进 行 积分 得 到 的 ， 即 


p(t | a,8) = / pt | ww, P)p(iw | a) dw G7D 
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一 种 计算 这 个 积分 的 方法 是 再 次 使 用 公式 (2115) 给 出 的 线性 -高 斯 模型 的 条 件 概率 分 布 的 结 
果 。 这 里 ， 我 们 使 用 另 一 种 方法 计算 这 个 积分 ， 即 通过 对 指数 项 配 平方 ， 然 后 使 用 高 斯 分 布 的 
归 一 化 系数 的 基本 形式 。 
根据 公式 (3.11) 、 公 式 〔3.12) 和 公式 (3.52) ， 我 们 可 以 把 证 据 函数 写成 下 面 的 形式 

tl ep)= (EE) (FE) /eraojaw 679 

其 中 MM 是 w 的 维 数 ， 并 且 ， 我 们 定义 了 
E(w) = BED(w) + By (w) 

(3.79) 


过 St 一 理由 十 TW w 


我 们 看 到 ， 如 果 忽 略 一 些 比例 常数 ， 公 式 (3.79) 等 于 正则 化 的 平方 和 误差 函数 (3.27) 。 我 们 
现在 对 w 配 平方 ， 可 得 


fo I 3(w ee (3.80) 
其 中 我 们 令 
A=al+fEi® (3.81) 
以 及 
E(mnN) = Slt — BmnN|| 十 mm (3.82) 
注意 A 对 应 于 误差 函数 的 二 阶 导 数 
A= VYE(w) (3.83) 
被 称 为 Hessian 和 矩阵 。 这 里 我 们 也 定义 了 mn 为 
mN=6A- Eit (3.84) 


使 用 公式 (3.54) ， 我 们 看 到 4 = Sw， 因此 公式 (3.84) 等 价 于 之 前 的 定义 (3.53) ， 从 而 它 
表示 后 验 概率 分 布 的 均值 。 
通过 比较 多 元 高 斯 分 布 的 归 一 化 系数 ， 关 于 w 的 积分 现在 可 以 很 容易 地 计算 出 来 了 ， 即 





| sp{-B(w)) dw 
= cxp{—B(mn)} | exp {= — mnN) A(w — mn)) dw (3.85) 
=exp{—E(mn)}(27) 1A 


使 用 公式 (3.78) ,我们 可 以 把 边缘 似 然 函数 的 对 数 写成 下 面 的 形式 





M N 1 N 
lInp(t | a,8) = ln a + In8— E(mN)— 31°1A| 一 pe (3.80) 


这 就 是 证 据 函 数 的 表达 式 。 

回 到 多 项 式 回 归 问 题 ， 我 们 可 以 画 出 模型 证 据 与 多 项 式 阶 数 之 间 的 关系 ， 如 图 3.14 所 示 。 
这 里 ， 我 们 已 经 假定 先 验 分 布 的 形式 为 公式 (1.65) ， 参 数 a 的 值 固定 为 ac = 5 x 10 飞 。 这 个 
图 像 的 形式 非常 有 指导 意义 。 我 们 回头 看 图 14， 我 们 看 到 M = 0 的 多 项 式 对 数据 的 拟 合 效 
果 非 常 差 ， 结 果 模 型 证 据 的 值 也 相对 较 小 。M = 1 的 多 项 式 对 于 数据 的 拟 合 效果 有 了 显 
著 的 提升 ， 因 此 模型 证 据 变 大 了 。 但 是 ， 对 于 M = 2 的 多 项 式 ， 拟 合 效果 又 变 得 很 差 ， 因 为 
产生 数据 的 正弦 函数 是 奇 函数 ， 因 此 在 多 项 式 展开 中 没有 偶 次 项 。 事 实 上 ， 图 1.5 给 出 的 数 
据 残 差 从 M = 1 到 M = 2 只 有 微小 的 减 小 。 由 于 复杂 的 模型 有 着 更 大 的 复杂 度 惩罚 项 ， 因 此 


122 
wwaibbt.com DODODDODODOD 














图 3.14: 多 项 式 回归 模型 的 模型 对 数 证 据 与 阶 数 M 的 关系 图 像 ， 表 明证 据 倾 向 于 选择 M = 3 的 模型 。 


从 M = 1 到 M = 2， 模 型 证 据 实 际 上 减 小 了 。 当 M = 3 时 ， 我 们 对 于 数据 的 拟 合 效 果 有 了 很 大 
的 提升 ， 如 图 1.4 所 示 ， 因 此 模型 证 据 再 次 增 大 ， 给 出 了 多 项 式 拟 合 的 最 高 的 模型 证 据 。 进 一 步 
增加 M 的 值 ， 上 只 能 少量 地 提升 拟 合 的 效果 ， 但 是 模型 的 复杂 度 却 越 来 越 复杂 ， 这 导致 整体 的 模 
型 证 据 会 下 降 。 再 次 看 图 1.5， 我 们 看 到 泛 化 错误 在 M = 3 到 M = 8 之 间 儿 乎 为 常数 ， 因 此 单独 
基于 这 幅 图 很 难 对 模型 做 出 选择 。 然 而 ， 模 型 证 据 的 值 明 显 地 倾向 于 选择 M = 3 的 模型 ， 因 为 
这 是 能 很 好 地 解释 观测 数据 的 最 简单 的 模型 。 


3.5.2 ”最 大 化 证 据 函 数 
让 我 们 首先 考虑 p(t | a, 6) 关 于 a 的 最 大 化 。 首 先 定义 下 面 的 特征 向 量 方程 
(PBT Bu = Nu (3.87) 


根据 公式 (3.81) ， 可 知 4 的 特征 值 为 a + X。 现 在 考虑 公式 (3.86) 中 涉及 到 In|AI| 的 项 关 
于 a 的 导数 

















d 
元 也 4l = jw" lo+ 0 ji 十 oa) De (3.88) 
因此 函数 (3.86) 关于 a 的 驻 点 满足 
M Lm 
两 侧 乘 以 2aq， 整 理 ， 可 得 
| (3.90) 
由 于 i 的 求 和 式 中 一 共有 MM 项 ， 因 此 Y 可 以 写成 
Xi 
y= 2 ee (3.91) 
7 的 意义 稍 后 会 讨论 。 根 据 方程 (3.90) ， 我 们 看 到 最 大 化 边缘 似 然 函 数 的 a 满 足 
7Y 
Q' 一 i (3.92) 





注意 ， 这 是 a 的 一 个 隐 式 解 ， 不 仪 因为 7 与 a 相关 ， 还 因为 后 验 概率 本 身 的 众 数 mn 也 与 a 的 选 
择 有 关 。 因 此 我 们 使 用 迭代 的 方法 求解 。 首 先 我 们 选择 一 个 a 的 初始 值 ， 使 用 这 个 初始 值 找 
到 mx (由 公式 (3.53) 求 得 ) ， 利 用 公式 (3.91) 计算 Y。 之 后 这 些 值 被 公式 (3.92) 用 来 重新 
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图 3.15: 似 然 函 数 的 轮廓 线 (红色 ) 和 先 验 概率 分 布 (绿色 ) ， 其 中 参数 空间 中 的 坐标 轴 被 旋转 ， 
与 Hessian 和 矩阵 的 特征 向 量 wi 对 齐 。 对 于 a = 0， 后 验 概 率 分 布 的 众 数 由 最 大 似 然 解 xz 给 出 ， 而 对 于 非 
零 的 aq， 众 数位 于 wwaP = mn 的 位 置 。 在 方向 wi1 上， 由 公式 (3.87) 定义 的 特征 值 X: 与 cx 相 比较 小 ， 
此 和 1/(A1 + @) 接 近 零 ， 对 应 的 ww 的 MAP 值 也 接近 零 。 相 反 ， 在 wz 的 方向 上 ， 特 征 值 A2 与 a 相 比 较 大 ， 
此 和 2/(X2 十 a) 接近 1，w2 的 MAP 值 接近 于 最 大 似 然 值 。 





估计 a。 这 个 过 程 不 断 进行 ， 直 到 收敛 。 注 意 ， 由 于 和 矩阵 重重 是 固定 的 ， 因 此 我 们 可 以 在 最 开 
始 的 时 候 计算 一 次 特征 值 ， 然 后 接 下 来 只 需 乘 以 8 就 可 以 得 到 Xi 的 值 。 

应 该 强调 的 是 ，a 的 值 是 纯粹 通过 观察 训练 集 确定 的 。 与 最 大 似 然 方法 不 同 ， 最 优化 模型 复 
杂 度 不 需要 独立 的 数据 集 。 

我 们 可 以 类 似 地 关于 6 最 大 化 对 数 边 绿 似 然 函 数 〔3.86) 。 为 了 完成 这 一 点 ， 我 们 注意 到 公 
式 (3.87) 定义 的 特征 值 X 正 比 于 6， 因 此 邯 = 等 。 于 是 





ml4l= PD 十 al) Se (3.93) 


边缘 似 然 函 数 的 驻 点 因此 满足 


i 全 
5 一 eeoP 一 址 G9 
整理 ， 我 们 可 以 得 到 
1 1 
2 {tn — mm pzn)} (3.95) 
B N-7 2 和 


与 之 前 一 样 ， 这 是 6 的 一 个 隐 式 解 ， 可 以 通过 迄 代 的 方法 解 出 。 首 先 选择 6 的 一 个 初始 值 ， 然 
后 使 用 这 个 初始 值 计算 mw 和 7， 然 后 使 用 公式 (3.95) 重新 信 计 5 的 值 ， 重 复 直 到 收敛 。 如 
果 a 和 6 的 值 都 要 从 数据 中 确定 ， 那 么 他 们 的 值 可 以 在 每 次 更 新 Y 之 后 一 起 重新 估计 。 


3.5.3 ”参数 的 有 效 数量 


公式 (3.92) 给 出 的 结果 有 一 个 十 分 优雅 的 意义 (MacKay, 1992a) ， 它 提供 给 我 们 关于 a 的 
贝 叶 斯 解 的 更 深刻 的 认识 。 考 虑 似 然 函数 的 轮廓 线 以 及 先 验 概率 分 布 ， 如 图 3.15 所 示 。 这 里 ,我 
们 隐 式 地 把 参数 空间 的 坐标 轴 进 行 了 旋转 变换 ， 使 其 与 公式 (3.87) 定义 的 特征 向 量 对 齐 。 这 
样 ， 似 然 函 数 的 轮廓 线 就 变 成 了 轴 对 齐 的 椭圆 。 特 征 值 X 度 量 了 似 然 函 数 的 曲率 ， 因 此 在 图 3.15 
中 ， 特 征 值 和 1 小 于 和 M。( 因 为 较 小 的 曲率 对 应 着 似 然 函 数 轮廓 线 较 大 的 拉 伸 ) 。 由 于 生理 是 一 
个 正定 矩阵 ， 因 此 它 的 特征 值 为 正 数 ， 从 而 比值 过去 位 于 0 和 1 之 间 。 结 果 ， 由 公式 (3.91) 定 
义 的 7 的 取 值 范围 为 0 < Y < M。 对 于 入 之 a 的 方向 ， 对 应 的 参数 wi 将 会 与 最 大 似 然 值 接 近 ， 且 
比值 二 二 接 近 1。 这 样 的 参数 被 称 为 良好 确定 的 〈well determined) ， 因 为 它们 的 值 被 数据 紧 紧 
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图 3.16: 左 图 给 出 了 7 与 jn a 的 关系 (红色 曲线 ) 以 及 2aEw(mn) 与 In a 的 关系 蓝 色 曲线 ) ， 数 据 集 为 
正弦 数据 集 。 这 两 条 曲线 的 交点 定义 了 a 的 最 优 解 ， 由 模型 证 据 的 步 又 给 出 。 右 图 给 出 了 对 应 的 对 数 证 
据 lnp(t | a,6) 关 于 In a 的 图 像 (红色 曲线 ) ,说 明了 峰值 与 左 图 中 曲线 的 交点 恰好 重合 。 同 样 给 出 的 时 
测试 集 误 差 〈 蓝 色 曲 线 ) ， 说 明 模 型 证 据 最 大 值 的 位 置 接近 于 具有 最 好 泛 化 能 力 的 点 。 





地 限制 着 。 相 反 ， 对 于 Xi; < a 的 方向 ， 对 应 的 参数 ww 将 会 接近 0， 比 值 志 所 也 会 接近 0。 这 些 方 
向 上 ， 似 然 函数 对 于 参数 的 值 相对 不 敏感 ， 因 此 参数 被 先 验 概率 设置 为 较 小 的 值 。 公 式 (3.91) 
定义 的 7 因此 度量 了 良好 确定 的 参数 的 有 效 总 数 。 

我 们 可 以 更 深刻 地 研究 一 下 用 于 重新 估计 5 的 公式 (3.95) 。 让 我 们 把 8 和 公式 (3.21) 给 出 
的 对 应 的 最 大 似 然 结果 进行 比较 。 这 两 个 公式 都 把 方差 (精度 的 倒数 ) 表示 为 目标 值 和 模型 预 
测 值 的 差 的 平方 的 平均 值 。 但 是 ， 它 们 的 区 别 在 于 ， 最 大 似 然 结果 的 分 母 是 数据 点 的 数量 N ， 
而 贝 叶 斯 结果 的 分 母 是 N - 7Y。 根 据 公 式 (1.56) ， 我 们 看 到 单一 变量 z 的 高 斯 分 布 的 方差 的 最 
大 似 然 估计 为 








N 
1 
or = >》 (Zn 一 AM) (3.90) 
n=1 


这 个 佑 计 是 有 偏 的 ， 因 为 均值 的 最 大 似 然 解 axz 拟 合 了 数据 中 的 一 些 噪声 。 从 效果 上 来 看 ， 这 
占用 了 模型 的 一 个 自由 度 。 对 应 的 无 偏 的 估计 由 公式 (1.59) 给 出 ， 形 式 为 


N 
1 
oap = 六 人 — pmr) (3.97) 
n=1 


分 母 中 的 因子 NN 一 1 反映 了 模型 中 的 一 个 自由 度 被 用 于 拟 合 均值 的 事实 ， 它 抵消 了 最 大 似 然 解 的 
偏差 。 现 在 考虑 线性 回归 模型 的 对 应 的 结果 。 目 标 分 布 的 均值 现在 由 函数 w 9(z) 给 出 ， 它 包含 
了 M 个 参数 。 但 是 ， 并 不 是 所 有 的 这 些 参数 都 按照 数据 进行 了 调解 。 由 数据 确定 的 有 效 参数 的 
数量 为 7?， 剩 余 的 M 一 ?7 个 参数 被 先 验 概率 分 布设 置 为 较 小 的 值 。 这 可 以 通过 方差 的 贝 叶 斯 结果 
中 的 因子 入 一 反映 出 来 ， 因 此 修正 了 最 大 似 然 结 果 的 偏差 。 

我 们 可 以 说 明 使 用 1.1 节 的 正 弱 数 据 超 参数 的 有 效 框架 ， 以 及 由 9 个 基 函 数组 成 的 高 斯 基 画 数 
模型 ， 因 此 模型 中 的 参数 的 总 数 为 M = 10， 这 里 包含 了 偏 置 。 这 里 为 了 说 明 的 简洁 性 ， 我 们 已 
经 把 8 设置 成 了 真实 值 11.1， 然 后 使 用 证 据 框 架 来 确定 a， 如 图 3.16 所 示 。 

我 们 也 可 以 看 到 参数 a 是 如 何 控 制 参数 {wi} 的 大 小 的 。 图 3.17 给 出 了 独立 的 参数 关于 有 效 参 
数 数量 7 的 函数 图 像 。 

如 果 我 们 考虑 极限 情况 N > M， 数 据点 的 数量 大 于 参数 的 数量 ， 那 么 根据 公式 〈3.87) ， 
所 有 的 参数 都 可 以 根据 数据 良好 确定 。 因 为 更 “更 涉及 到 数据 点 的 隐 式 求 和 ， 因 此 特征 值 X 随 着 
数据 集 规模 的 增加 而 增 大 。 在 这 种 情况 下 ，7 = 内 ， 并 且 a 和 A 的 重新 佑 计 方程 变 为 了 


M 
= Cr (3.98) 
N 
一- 3.99 
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图 3.17: 高 斯 基 函 数 模型 中 的 10 个 参数 wi 与 参数 有 效 数量 Y 的 关系 ， 其 中 超 参 数 的 变化 范围 
为 0 < a < oo, 使 得 Y 的 变化 范围 为 0<Y< M。 


其 中 Bw 和 Bp 分 别 由 公式 (3.25) 和 公式 (3.26) 定义 。 这 些 结果 可 以 用 作 完 整 的 重新 佑 计 公式 
的 简化 计算 的 近似 ， 因 为 它们 不 需要 计算 Hessian 和 矩阵 的 一 系列 特征 值 。 





3.6 ”固定 基 轴 数 的 局 限 性 


在 本 章 中 ， 我 们 已 经 关注 了 由 固定 的 非 线 性 基 函 数 的 线性 组 合 组 成 的 模型 。 我 们 已 经 看 到 ， 
对 于 参数 的 线性 性 质 的 假设 产生 了 一 系列 有 用 的 性 质 ， 包 括 最 小 平方 问题 的 解析 解 ， 以 及 容易 
计算 的 贝 叶 斯 方法 。 此 外 ， 对 于 一 个 合适 的 基 沙 数 的 选择 ， 我 们 可 以 建立 输入 向 量 到 目标 值 之 
间 的 任意 非 线性 映射 。 在 下 一 章 中 ， 我 们 会 研究 类 似 的 用 于 分 类 的 模型 。 

因此 ， 似 乎 这 样 的 模型 建立 的 解决 模式 识别 问题 的 通用 框架 。 不 幸 的 是 ， 线 性 模型 有 一 些 重 
要 的 局 限 性 ， 这 使 得 我 们 在 后 续 的 章节 中 要 转 而 关注 更 加 复杂 的 模型 ， 例 如 支持 向 量 机 和 神经 
网 络 。 

困难 的 产生 主要 是 因为 我 们 假设 了 基 函 数 在 观测 到 任何 数据 之 前 就 被 固定 了 下 来 ， 而 这 正 是 
1.4 节 讨论 的 维度 灾难 问题 的 一 个 表现 形式 。 结 果 ， 基 末 数 的 数量 随 着 输入 空间 的 维度 刀 迅 速 增 
长 ， 通 常 是 指数 方式 的 增长 。 

可 运 的 是 ， 真 实数 据 集 有 两 个 性 质 ， 可 以 帮助 我 们 缓解 这 个 问题 。 第 一 ， 数 据 向 量 {zn} 通 
常 位 于 一 个 非 线性 流 形 内 部 。 由 于 输入 变量 之 间 的 相关 性 ， 这 个 流 形 本 身 的 维度 小 于 输入 空间 
的 维度 。 我 们 将 在 第 12 章 中 讨论 手写 数字 识别 时 给 出 一 个 例子 来 说 明 这 一 点 。 如 果 我 们 使 用 局 
部 基 函 数 ， 那 么 我 们 可 以 让 基 函 数 只 分 布 在 输入 空间 中 包含 数据 的 区 域 。 这 种 方法 被 用 在 径 向 
基 函 数 网 络 中 ， 也 被 用 在 支持 向 量 机 和 相关 向 量 机 当中 。 神 经 网 络 模型 使 用 可 调节 的 基 画 数 ， 
这 些 基 沙 数 有 着 sigmoid 非 线性 的 性 质 。 神 经 网 络 可 以 通过 调节 参数 ,使 得 在 输入 空间 的 区 域 中 
基 浮 数 会 按照 数据 流 形 发 生变 化 。 第 二 ， 目 标 变 量 可 能 只 依赖 于 数据 流 形 中 的 少量 可 能 的 方 
向 。 利 用 这 个 性 质 ， 神 经 网 络 可 以 通过 选择 输入 空间 中 基 函 数 产 生 响 应 的 方向 。 








3.7 练习 
(3.1) (*) 证 明 ， 双 曲 正切 函数 与 公式 (3.6) 定义 的 logistic sigmoid 函 数 的 关系 为 
tanh(a) = 20(2a) 一 1 (3.100) 
这 也 就 能 够 证 明 ，logistic sigmoid 函 数 的 一 个 一 般 的 线性 组 合 


M 
y (zx, WwW) = wo 70 (三 各 ) (3.101) 
5 
j=1 
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等 价 于 一 个 双 曲 正切 函数 的 线性 组 合 


M 
a 
y(z,u) = uo 十 如 tanh (3) (3.102) 


j=1 


寻找 一 个 表达 式 ， 将 新 的 参数 {uo,.…. ,um}) 与 原始 的 参数 {wo,.…., wm} 关联 起 来 。 
(3.2) (**) 证 明和 矩阵 
E(B EB) 1E’ (3.103) 


会 把 任意 的 向 量 v 投 影 到 由 更 的 列 张 成 的 空间 上 。 使 用 这 个 结果 证 明 最 小 平方 解 (3.15) 对 应 于 
向 量 t 在 流 形 S 上 的 一 个 正 交 投影 ， 如 图 3.2 所 示 。 

(3.3) (*) 考虑 一 个 数据 集 ， 其 中 每 个 数据 点 如 都 与 一 个 权 因 子 rn > 0 相关 联 ， 从 而 平方 
和 误差 削 数 变 为 了 








N 


六 这 3 和 ord(zn) G.104 


n=1 
找到 最 小 化 这 个 误差 函数 的 解 w* 的 表达 式 。 说 出 这 种 加 权 的 平方 和 误差 函数 的 两 个 意义 ， 分 别 
根据 (1) 数据 对 噪声 方差 的 依赖 性 〈2) 复制 的 数据 点 。 
(3.4) (*) 考虑 一 个 线性 模型 


D 
y(2,w) = wo > ,wir (3.105) 
i=1 
以 及 平方 和 误差 函数 本 
1 
Ep(w) = 3 2 {ylen, ) 一 如 了 (3.100) 





现在 假设 服从 均值 为 零 方差 为 2 的 高 斯 分 布 的 噪声 6 被 独立 地 加 到 每 个 输入 变量 x; 上。 通过 使 
用 E[ei] = 0 和 了 [eej] = 6i;o2， 证 明 ， 对 在 噪声 分 布 上 做 平均 的 Bp 进行 最 小 化 ， 等 价 于 对 附加 权 
值 衰 减 的 正则 化 项 的 无 噪声 输入 变量 的 平方 和 误差 函数 进行 最 小 化 ， 其 中 偏 置 参数 wo 从 正则 化 
项 中 被 省 略 掉 。 
(3.5) (*) 使 用 附录 E 中 讨论 的 拉 格 朗 日 乘 数 法 ， 证 明 最 小 化 正则 化 的 误差 函数 (3.29) 等 
价 于 在 限制 条 件 (3.30) 下 最 小 化 未 正则 化 的 平方 和 误差 函数 (3.12) 。 讨 论 参数 7 和 和 的 关系 。 
(3.6) (*) 考虑 多 元 目标 变量 # 的 线性 基 沙 数 回归 模型 ， 其 中 t 服 从 高 斯 分 布 ， 形 式 为 


p(t | W, 3)=N(t| yr, W),») (3.107) 





























其 中 
y(z, W) = W’ 0(z) (3.108) 


训练 数据 集 由 基 向 量 输入 (zz) 和 对 应 的 目标 向 量 如 组成， 其 中 由 = 1,.…..,N。 证 明 参 数 矩 
阵 三 的 最 大 似 然 解 本 Mr 具有 这 样 的 性 质 : 每 一 列 由 形 如 (3.15) 的 表达 式 给 出 ， 它 是 各 向 同性 
的 噪声 分 布 的 解 。 注 意 ， 这 个 最 大 似 然 解 与 协 方差 矩阵 忆 无 关 。 证 明 ， 马 的 最 大 似 然 解 为 
N 
DE 二 (tn — Wh (zn)) (tn — Whp(rn)) (3.109) 


n=1 


(3.7) (*) 通过 使 用 配 平方 的 方法 ,证明 公式 (3.49) 给 出 的 线性 基 范 数 模 型 中 的 参数 的 
后 验 概率 分 布 的 结果 ， 其 中 mn 和 Sw 分 别 由 公式 (3.50) 和 公式 (3.51) 定义 。 

(3.8) (*) 考虑 3.1 节 的 线性 基 函 数 模型 。 假 设 我 们 已 经 观测 到 了 个 数据 点 ， 从 而 也 的 后 
验 概率 分 布 由 公式 (3.49) 给 出 。 这 个 后 验 概率 可 以 被 当成 下 一 次 观测 的 先 验 概率 。 通 过 考虑 一 
个 额外 的 数据 点 (zw+ltw+l)， 使 用 为 指数 项 配 平 方 的 方法 ， 证 明 最 终 的 后 验 概率 分 布 仍然 由 
公式 〈3.49) 给 出 ， 但 是 SN 被 替换 为 了 SNw4+1，rmw 被 替换 为 了 SN+l。 
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(3.9) (*) 重复 上 一 个 练习 ， 但 这 次 不 是 用 手 配 平 方 ， 而 是 使 用 公式 (2.116) 给 出 的 线 
性 高 斯 模型 的 一 般 结 果 。 

(3.10) ”CG*) 使 用 公式 (2.115) 给 出 的 结果 ， 计 算 公式 (3.57) 的 积分 ， 证 明 贝 叶 斯 线性 
回归 模型 的 预测 分 布 由 公式 (3.58) 给 出 ， 其 中 与 输入 相关 的 变量 由 公式 (3.59) 给 出 。 

(3.11) (0*) 我 们 已 经 看 到 ， 随 着 数据 集 规模 的 增加 ， 模 型 参数 的 后 验 概率 分 布 的 不 确定 
性 会 降低 。 使 用 和 矩阵 恒等式 (附录 C) 


(Mv) (oT MT) 


3.110 
1+vTM- liv ( ) 





(AM 十 vw) ! = M-! 


证 明 公 式 (3.59) 给 出 的 线性 回归 函数 的 不 确定 性 c%(z) 满 足 
oN+1(2) < oN(z) G.111) 
(3.12) ”(*) 我 们 在 2.3.6 节 看 到 ， 具 有 未 知 均值 和 未 知 精度 (方差 倒数 ) 的 高 斯 分 布 的 共 


斩 先 验 是 正 态 -Gamma 分 布 。 这 个 性 质 对 于 线性 回归 模型 的 条 件 高 斯 分 布 pt | x2,w, 6) 也 成 立 。 
如 果 我 们 考虑 似 然 函数 (3.10) ,那么 w 和 B 的 共 轿 先 验 为 


p(w,B) =N(w | mo,B .So)Gam(8 | ao, bo) (3.112) 
证 明 对 应 的 后 验 概率 分 布 具 有 相同 的 函数 形式 ， 即 
p(w,BIt) = Nw lw SNw)Gam(6 | aw, bN) (3.113) 


并 且 找 出 后 验 概率 参数 mw, SN,aN 和 bN 的 表达 式 。 
(3.13) (**) 证 明 练习 3.12 中 讨论 的 模型 的 预测 分 布 p(t | x,t) 是 学 生 t 分 布 ， 形 式 为 


p(t | mt = St(t | 和 G110 


并 求 出 ,入 和 v 的 表达 式 。 

(3.14) CY*) 本 练习 中 ， 我 们 仔细 研究 公式 (3.62) 定义 的 等 价 核 的 性 质 ， 其 中 SN 由 公式 
(3.54) 定义 。 假 设 基 函 数 %j(z) 是 线性 独立 的 ， 且 观测 数据 点 的 数量 六 大 于 基 郴 数 的 数量 M 。 
此 外 ， 令 某 一 个 基 函 数 为 常数 ， 例 如 (z) = 1。 通 过 对 这 些 基 画 数 进 行 恰当 的 线性 变换 ， 我 们 
人 这 个 新 的 基 的 集合 能 够 张 成 同样 的 空间 ， 但 是 基 是 单位 正 交 

入 ， 即 


N 

Dwi(wn) pen) = Ly (3.115) 

n=1 
其 中 ， 如 果 j = 有 ， 则 Zn 为 1， 否 则 为 0。 并 且 ， 我 们 取 wo(z) = 1。 证 明 对 于 a = 0， 等 价 核 可 以 
写成 k(z,2) = W(z)7W(z)， 其 中 = (wo,.… ,WM-1) ”。 使 用 这 个 结果 证 明 ， 核 满足 下 面 的 加 
和 限制 


6 | (3.110) 
n=1 
(3.15) (*) 考虑 回归 的 线性 基 函 数 模型 ， 其 中 参数 wc 和 8 通过 模型 证 据 框架 来 设 定 。 证 明 
由 公式 (3.82) 定义 的 函数 已 (mw) 满 足 关 系 2 尼 zw) = N。 
(3.16) ”Gx*) 使 用 公式 (2.115) 直接 计算 积分 (3.77) ， 推 导线 性 回归 模型 的 对 数 证 据 函 
数 的 结果 (3.86) 。 
(3.17) (9) 证 明 贝 叶 斯 线性 回归 模型 的 证 据 函 数 可 以 写成 公式 (3.78) 的 形式 ， 其 
中 马 (w) 由 公式 (3.79) 定义 。 
(3.18) ”C(x*) 通过 关于 w 配 平方 ,证明 贝 叶 斯 线性 回归 的 误差 函数 (3.79) 可 以 写成 公式 
(3.80) 的 形式 。 
(3.19) ”(**) 证 明 贝 叶 斯 线性 回归 模型 中 ， 对 w 积 分 会 得 到 结果 (3.85) 。 从 而 也 就 证 明了 
对 数 边缘 似 然 函 数 由 公式 (3.86) 给 出 。 
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(3.20) (0) 证 明 ， 对 于 对 数 边缘 似 然 函数 〈3.86) 关于 oa 进行 最 大 化 的 步骤 会 产生 出 重 估 
计 方 程 (3.92) 。 
(3.21) (YY) 另 一 种 推导 模型 证 据 框 架 中 最 优 的 a 值 的 结果 (3.92) 的 方法 是 使 用 恒等式 


d d 
| gh Sl 3.117 
da | 2 (4 二 4 4 ) 


通过 考虑 实 对 称 和 矩阵 4 的 特征 值 展开 式 ， 然 后 使 用 由 4 的 特征 值 表 示 的 行列 式 和 迹 的 标准 结 
果 (附录 C) ， 证 明 这 个 恒等式 。 然 后 使 用 公式 (3.117) ， 从 公式 (3.86) 开始 ， 推 导 公 式 
(3.92) 。 

(3.22) ”GC*) 证 明 ， 对 于 对 数 边 缘 似 然 函 数 (3.86) 关于 6 进行 最 大 化 的 步骤 会 产生 出 重 估 
计 方 程 (3.95) 。 

(3.23) ”G*) 证 明 练 习 3.12 描 述 的 模型 的 数据 的 边缘 概率 分 布 ( 即 模型 证 据 ) 为 


1 be T(an)|SN|? 





t) = 人 (3.118) 
" (27)3 ON 工 (ao) |Sol3 
首先 关于 ww 求 积分 ， 然 后 关于 6 求 积分 即 可 。 
(3.24) (**) 重复 上 一 个 练习 ， 但 是 这 次 使 用 贝 叶 斯 定理 
p(t) = 2 0, )p(w, B) i 





p(w,B lt) 
然后 将 先 验 概率 分 布 、 后 验 概率 分 布 以 及 似 然 函数 代入 上 面 的 表达 式 ， 推 导出 公式 (3.118) 的 
结果 。 


一 口 
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4 分 类 的 线性 模型 


前 一 章 中 ， 我 们 研究 了 一 类 回归 模型 ， 这 些 模型 有 相当 简单 的 数学 性 质 和 计算 性 质 。 我 们 现 
在 讨论 一 类 与 此 相似 的 模型 ， 用 于 解决 分 类 问题 。 分 类 的 目标 是 将 输入 变量 zx 分 到 KK 个 离散 
的 类 别 Cx 中 的 某 一 类 。 最 常见 的 情况 是 ， 类 别 互 相 不 想 交 ， 因 此 每 个 输入 被 分 到 唯一 的 一 
个 类 别 中 。 因 此 输入 空间 被 划分 为 不 同 的 决策 区 域 (decision region) ， 它 的 边界 被 称 为 决策 
边界 (decision boundary) 或 者 决策 面 (decision surface) 。 在 本 章 中 ， 我 们 考虑 分 类 的 线性 模 
型 。 所 谓 分 类 线性 模型 ， 是 指 决策 面 是 输入 向 量 z 的 线性 函数 ， 因 此 被 定义 为 刀 维 输入 空间 中 
的 (D 一 1) 维 超 平面 。 如 果 数 据 集 可 以 被 线性 决策 面 精确 地 分 类 ， 那 么 我 们 说 这 个 数据 集 是 线性 
可 分 的 (linearly separable) 。 

对 于 回归 问题 来 说 ,目标 向 量 t 就 是 一 个 实数 向 量 ， 它 的 值 是 我 们 想 要 预测 的 。 在 分 类 问题 
中 ， 使 用 目标 值 的 方式 来 表示 类 别 标签 有 许多 不 同 的 方式 。 对 于 概率 模型 来 说 ， 在 二 分 类 问题 
的 情况 下 ， 最 方便 的 表达 方式 是 二 元 表示 方法 。 这 种 方法 中 ， 有 一 个 目标 变量 4 e {0,1}， 其 
中 t = 1 表示 类 别 C1， 而 t = 0 表示 类 别 Ct。。 我 们 可 以 把 t 的 值 看 成 分 类 结果 为 C1 的 概率 ， 这 个 概 
率 只 取 极 端的 值 0 和 1。 对 于 天 > 2 类 问题 ， 比 较 方便 的 方法 是 使 用 “1-of-K 编码 规则 。 这 种 方法 
中 ,t 是 一 个 长 度 为 K 的 向 量 。 如 果 类 别 为 C;， 那 么 t 的 所 有 元 素 纹 中， 只 有 tj; 等 于 1， 其 余 的 都 
等 于 0。 例 如 ， 如 果 我 们 有 5 个 类 别 ， 那 么 来 自 第 2 个 类 别 的 模式 给 出 的 目标 向 量 为 








t= (0,1,0,0,0)7 (4.1) 
与 之 前 一 样 ， 我 们 可 以 把 要 看 成 分 类 结果 为 Ck 的 概率 。 对 于 非 概率 模型 ， 目 标 变量 使 用 其 他 的 


表示 方法 有 时 候 会 更 方便 。 

在 第 1 章 ， 我 们 提出 了 分 类 问题 的 三 种 不 同方 法 。 最 简单 的 方法 涉及 到 构造 判别 函数 
(discriminant function) ， 它 直接 把 向 量 z 分 到 具体 的 类 别 中 。 但 是 ， 一 个 更 强大 的 方法 是 在 推 
断 阶 段 对 条 件 概率 分 布 z(Cx | z) 直 接 建 模 ， 然 后 使 用 这 个 概率 分 布 进行 最 优 决 策 。 通 过 区 分 推 
断 阶段 和 决策 阶段 ， 我 们 获得 了 很 多 有 益 的 东西 ， 正 如 1.5.4 节 讨论 的 那样 。 有 两 种 不 同 的 方法 
确定 条 件 概 率 分 布 p(Ck | xz)。 一 种 方法 是 直接 对 条 件 概 率 分 布 建 模 ， 例 如 把 条 件 概 率 分 布 表 示 
为 参数 模型 ， 然 后 使 用 训练 集 来 最 优化 参数 。 另 一 种 方法 是 生成 式 的 方法 。 这 种 方法 中 ， 我 们 
对 类 条 件 概率 密度 p(z | Ci) 以 及 类 的 先 验 概率 分 布 p(Ci) 建 模 ， 然 后 我 们 使 用 贝 叶 斯 定理 计算 后 
验 概率 分 布 

p(x | Cr)p(Cx) 


p(z) 








PC | 2) = (4.2) 





我 们 将 在 本 章 中 讨论 这 三 种 方法 。 

在 第 3 章 讨论 的 线性 回归 模型 中 ， 模 型 的 预测 y(z, w) 由 参数 w 的 线性 函数 给 出 。 在 最 简单 的 
情况 下 ， 模 型 对 输入 变量 也 是 线性 的 ， 因 此 形式 为 y(z) = w7z 十 wo， 即 y 是 一 个 实数 。 然 而 对 
于 分 类 问题 ， 我 们 想 预 测 的 是 离散 的 类 别 标签 ， 或 者 更 一 般 地 ， 预 测 位 于 区 间 (0, 1) 的 后 验 概 
率 分 布 。 为 了 完成 这 一 点 ， 我 们 考虑 这 个 模型 的 一 个 推广 ， 这 个 模型 中 我 们 使 用 非 线 性 函 
数 关 -) 对 的 线性 函数 进行 变换 ， 即 


y(2) = f (ww + wo) (4.3) 


在 机 器 学 习 的 文献 中 ，f(-) 被 称 为 激活 函数 (activation function) ， 而 它 的 反 函 数 在 统计 学 的 文 
献 中 被 称 为 链接 函数 (link function) 。 决 策 面 对 应 于 y(z) = 常数 ， 即 tw7z 十 wo = 常数 ， 因 此 
决策 面 是 x 的 线性 函数 ， 即 使 函数 了 (-) 是 非 线 性 函数 也 是 如 此 。 因 此 ， 由 公式 (4.3) 描述 的 一 类 
模型 被 称 为 推广 的 线性 模型 (generalized linear model) (McCullagh and Nelder 1989) 。 但 是 ， 
需要 注意 的 是 ， 与 回归 中 使 用 的 模型 相反 ， 它 们 不 再 是 参数 的 线性 模型 ， 因 为 我 们 引入 了 非 线 
性 函数 帮 :)。 这 会 导致 计算 比 线性 回归 模型 更 加 复杂 。 尽 管 这 样 ， 这 些 模 型 与 后 续 章节 中 要 讨 
论 的 更 加 一 般 的 非 线性 模型 相 比 ， 仍 然 相 对 简单 。 

本 章 中 讨论 的 算法 同样 适用 于 下 面 的 情形 : 我 们 对 输入 变量 进行 一 个 固定 的 非 线性 变换 ， 这 
个 变换 使 用 一 个 基 函 数 向 量 %(z)， 正 如 我 们 在 第 3 章 中 对 回归 模型 做 的 那样 。 本 章 的 开始 ， 我 们 
考虑 直接 对 原始 输入 空间 z 分 类 的 问题 ， 而 第 4.3 章 中 ， 我 们 会 发 现 ， 为 了 与 后 续 章 节 相 容 ， 我 
们 引入 基 函 数 会 比较 方便 。 
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图 4.1: 二 维 线性 判别 函数 的 几何 表示 。 决 策 面 (红色 ) 垂直 与 w， 它 距离 原点 的 偏 移 量 由 偏 置 参数 wo 控 
制 。 此 外 ， 一 个 一 般 的 点 z 与 决策 面 的 有 符号 的 正 交 距离 为 yz)/|z||。 





4.1 ”判别 函数 


判别 函数 是 一 个 以 向 量 z 为 输入 ， 把 它 分 配 到 天 个 类 别 中 的 某 一 个 类 别 ( 记 作 Ck) 的 函数 。 
本 章 中 ， 我 们 把 我 们 的 精力 集中 于 线性 判别 函数 (linear discriminant function) ， 即 那些 决策 面 
是 超 平面 的 判别 函数 。 为 了 简化 讨论 ， 我 们 首先 考虑 两 类 的 情形 ， 然 后 把 讨论 扩展 到 天 > 2 的 
情形 。 


4.1.1 二 分 类 
线性 判别 函数 的 最 简单 的 形式 是 输入 向 量 的 线性 函数 ， 即 
y(z) = wz + wo (4.4) 


其 中 心 被 称 为 权 向 量 (weight vector) ，wo 被 称 为 偏 置 (bias) 。 注 意 不 要 把 这 里 的 偏 置 与 统计 
学 中 的 偏 置 弄 混淆 。 偏 置 的 相反 数 有 时 被 称 为 贱 值 (threshold) 。 对 于 一 个 输入 向 量 z， 如 
果 y(z) > 0， 那 么 它 被 分 到 Ci 中 ， 否 则 被 分 到 C? 中 。 对 应 的 决策 边界 因此 由 y(z) = 0 确定 ， 它 对 
应 着 D 维 空间 的 一 个 (D - 也) 维 的 超 平面 。 考 虑 两 个 点 z4 和 zB， 两 个 点 都 位 于 决策 面 上 。 由 
于 y(z4) = yzB) = 0， 我 人 有 w (z4 一 5B) = 0， 因 此 向 量 w 与 决策 面 内 的 任何 向 量 都 正 交 ， 





从 而 w 确 定 了 决策 面 的 方向 。 类 似 地 ， 如 果 z 是 决策 面 内 的 一 个 点 ， 那 么 y(z) = 0， 因 此 从 原点 
到 决策 面 的 垂直 距离 为 
wT wo (4.5) 
ao | z|| 


因此 我 们 看 到 偏 置 参数 wo 确定 了 决策 面 的 位 置 。 图 4.1 给 出 了 D = 2 的 情况 下 的 这 些 性 质 。 
此 外 ,我 们 注意 到 y(z) 的 值 给 出 了 点 z 到 决策 面 的 垂直 距离 r 的 一 个 有 符号 的 度量 。 为 了 说 
明 这 一 点 ,考虑 任意 一 点 ZX 和 它 在 决策 面 上 的 投影 1 ， 我 们 有 








T= 二 Xli 十 (4.0) 


A 
wll 
将 这 个 等 式 的 两 侧 同 时 乘 以 wi， 然 后 加 上 wo， 并 且 使 用 y(x) = w7 十 wo 以 
及 y(z1) = wz 十 wo 二 0, 我们 有 

y(®) (4.7) 


3 
lo 


图 4.1 说 明了 这 个 结果 。 
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Rs 





not C1 





not C2 
图 4.2: 尝试 从 一 组 两 类 的 判别 准则 中 构建 出 一 个 天 类 的 判别 准则 会 导致 具有 奇异 性 的 区 域 ， 用 绿色 表 


示 。 左 侧 给 出 的 例子 涉及 到 使 用 两 个 判别 准则 ， 这 两 个 判别 准则 将 属于 类 别 Cx 的 点 与 不 属于 类 别 Cx 的 点 
区 分 开 。 右 侧 给 出 的 例子 涉及 到 三 个 判别 函数 ， 每 个 函数 用 来 区 分 一 对 类 别 Ck 和 Cj。 








与 第 3 章 线性 回归 模型 相同 ， 我 们 可 以 引入 一 个 额外 的 虚 输入 zo = 1， 这 会 使 得 记号 更 简 
洁 ， 比 较 方 便 。 引 入 “ 虚 " 输 入 后 ， 我 们 定义 名 = (wo,w) 以 及 = (zo,Z)， 从 而 


y(z) = Wz (4.8) 


A 


4.1.2 多 分 类 


现在 考虑 把 线性 判别 函数 推广 到 K > 2 个 类 别 。 我 们 可 能 会 尝试 把 多 个 二 分 类 判别 函数 结合 
起 来 ， 构 造 一 个 玉 类 判别 函数 。 但 是 ， 这 会 产生 一 些 严重 的 困难 (Duda and Hart, 1973) ， 正 如 
我 们 马上 要 说 明 的 那样 。 

考虑 使 用 K 一 1 个 分 类 器 ， 每 个 分 类 器 用 来 解决 一 个 二 分 类 问题 ， 把 属于 类 别 Cx 和 不 属于 那 
个 类 别 的 点 分 开 。 这 被 称 为 “1 对 其 他 ”(one-versus-the-rest) 分 类 器 。 图 4.2 的 左 侧 给 出 了 一 个 涉 
及 到 三 个 类 别 的 例子 。 这 个 例子 中 ， 这 种 方法 产生 了 输入 空间 中 无 法 分 类 的 区 域 。 

另 一 种 方法 是 引入 人 全 -个 二 元 判别 函数 ， 对 每 一 对 类 别 都 设置 一 个 判别 函数 。 这 被 称 
为 “1 对 1” (one-versus-one) 分 类 器 。 这 样 ， 每 个 点 的 类 别 根据 这 些 判别 函数 中 的 大 多 数 输出 类 
别 确定 。 但 是 ， 这 也 会 造成 输入 空间 中 的 无 法 分 类 的 区 域 ， 如 图 4.2 右 侧 的 图 所 示 。 

通过 引入 一 个 玉 类 判别 函数 ， 我 们 可 以 避免 这 些 问题 。 这 个 天 类 判别 函数 由 天 个 线性 函数 组 
成 ， 形 式 为 











yk (2) = WhT + WkO (4.9) 
然后 对 于 点 z， 如 果 对 于 所 有 的 7 关 [都 有 w(z) > yj(z)， 那 么 就 把 它 分 到 Ck。 于 是 类 
别 Cs 和 Cj 之 间 的 决策 面 为 ye(x) = yj;(X)， 并 且 对 应 于 一 个 (D 一 1) 维 超 平面 ， 形 式 为 
(wi — wi) z+ (weo — wio) =0 (4.10) 
这 与 41.1 节 讨论 的 二 分 类 情形 的 决策 边界 的 形式 相同 ， 因 此 也 有 类 似 的 几何 性 质 。 
这 样 的 判别 函数 的 决策 区 域 总 是 单 连通 的 ， 并 且 是 凸 的 。 为 了 说 明 这 一 点 ， 考 虑 两 个 





点 Z4 和 zB， 两 个 点 都 位 于 决策 区 域 Rur 中 ， 如 图 43 所 示 。 任 何 位 于 连接 z4 和 zz 的 线段 上 的 点 
都 可 以 表示 成 下 面 的 形式 


HE=ArA+(l— Nes (4.11) 
其 中 0 < 入 < 1。 根 据 判别 函数 的 线性 性 质 ， 有 
gr(Z) = AKC(Z4) + (1 — NYyk(LB) (4.12) 
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图 4.3: 多 类 判别 函数 的 决策 区 域 的 说 明 ， 决 策 边 界 用 红色 表示 。 如 果 两 个 点 z4 和 zs5 位 于 同一 个 决策 区 
域 RR: ， 那 么 任何 位 于 连接 这 两 个 点 的 线段 上 的 点 2 一 定位 于 区 域内 ， 因 此 决策 区 域 一 定 是 单 连通 的 、 
凸 的 。 


由 于 zx4 和 zB 位 于 RR 内部， 因此 对 于 所 有 j 关上 都 有 yr(24) > yj(XA) 以 及 yi (2B) > yj(2B), 
因此 yx (2) > yj(2)， 从 而 2 也 位 于 及 内 部 ， 即 及 是 单 连通 的 并 且 是 凸 的 。 

注意 对 于 二 分 类 的 情形 ， 我 们 既 可 以 使 用 这 里 讨论 的 方法 ， 基 于 两 个 判别 画 
We 也 可 以 使 用 4.1.1 节 给 出 的 更 简单 的 但 是 等 价 的 方法 ， 基 于 单一 的 判别 函 
数 V(z)。 

我 们 现在 介绍 三 种 学 习 线 性 判别 函数 的 参数 的 方法 ， 即 基于 最 小 平方 的 方法 、Fisher 线 性 判 
别 浮 数 ， 以 及 感知 器 算法 。 


4.1.3 用 于 分 类 的 最 小 平方 方法 


在 第 3 章 中 ， 我 们 考虑 了 由 参数 的 线性 函数 组 成 的 模型 。 我 们 看 到 ， 最 小 平方 误差 函数 的 最 
小 化 产生 了 参数 值 的 简单 的 解析 解 。 因 此 ， 我 们 很 想 考 察 一 下 能 和 否 把 同样 的 方法 用 于 分 类 
问题 。 考 虑 一 个 一 般 的 K 分 类 问题 ， 其 中 目标 向 量 t 使 用 了 “1-of-K" 二 元 表示 方式 。 这 种 设置 
下 ， 使 用 最 小 平方 方法 的 一 个 理由 是 它 在 给 定 输入 向 量 的 情况 下 ， 近 似 了 目标 值 的 条 件 期 
望 E[t | z]。 对 于 二 元 表示 方法 ， 条 件 期 望 由 后 验 类 概率 向 量 给 出 。 但 是 不 幸 的 是 ， 这 些 概 率 通 

常 很 难 近 似 。 事 实 上 ， 近似 的 过 程 有 可 和 EE 产生 位 于 区 间 (0, 1) 之 外 的 值 ， 这 是 因为 线性 模型 的 灵 
活性 很 受 限 ， 正 如 我 们 稍 后 要 讨论 的 那样 。 

每 个 类 别 Ck 由 自己 的 线性 模型 描述 ， 即 

















yx (2) = wiz 十 Wk0 (4.13) 
其 中 k = ,全 。 使 用 向 量 记号 ， 我 们 可 以 很 容易 地 把 这 些 量 聚集 在 一 起 表示 ， 即 
y(z) = WwW 公 (4.14) 


其 中 W 是 一 个 矩阵 ， 第 k 列 由 D 十 1 维 向 量 WWh = (wko,Ww7) "组 成 ,多 是 对 应 的 增 广 输入 向 
量 (1, z7)7 ， 它 带 有 一 个 虚 输 入 zo 二 1。 这 个 表示 方法 在 3.1 节 详细 讨论 过 。 这 样 ， 一 个 新 的 输 
入 z 被 分 配 到 输出 y = ww4 人 最 大 的 类 别 中 。 _ 

我 们 现在 通过 最 小 化 平方 和 误差 函数 来 确定 参数 矩阵 W ， 正 如 我 们 在 第 3 章 中 对 于 回归 问题 
做 的 那样 。 考 虑 一 个 训练 数据 集 {zn,tn}， 其 中 n = 1,.…. ,入 ， 然 后 定义 一 个 矩阵 耳 ， 它 的 第 n 行 
是 向 量 太 。 我 们 还 定义 了 一 个 矩阵 头 ， 它 的 第 n 行 是 57。 这 样 ， 平 方 和 误差 函数 可 以 写成 


Ep(W) = 3Tr{(XW -TT (XW 7)} (4.15) 
令 上 式 关 于 到 的 导数 等 于 零 ， 整理， 可 以 得 到 WW 的 解 ， 形 式 为 
矿 二 (广义 )-! 色 了 工 = 文 iT (4.10) 
其 中 头 是 和 矩阵 处 的 伪 逆 矩阵 ， 正 如 3.1.1 节 讨论 的 那样 。 这 样 我 们 得 到 了 判别 函数 ， 形 式 为 
y(z) = Wi= TT (x) & (4.17) 
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一 4 = 0 之 4 6 8 


图 4.4: 左 图 给 出 了 来 自 两 个 类 别 的 数据 ， 用 红色 又 形 和 蓝 色 圆圈 表示 。 同 时 给 出 的 还 有 通过 最 小 平方 方 
法 找到 的 决策 边界 〈 洋 红色 曲线 ) 以 及 logistic 回 归 模 型 给 出 的 决策 边界 〈 绿 色 曲 线 ) ， 这 将 在 4.3.2 节 中 
讨论 。 右 图 给 出 了 当 额 外 的 数据 点 被 添加 到 左 图 的 底部 之 后 得 到 的 结果 ， 这 表明 最 小 平方 方法 对 于 异常 
点 很 敏感 ， 这 与 logistic 回 归 不 同 。 








多 目标 变量 的 最 小 平方 解 的 一 个 有 趣 的 性 质 是 ， 如 果 训 练 集 里 的 每 个 目标 向 量 都 满足 某 个 线 
性 限制 


aitn+b=0 (4.18) 
其 中 a 和 0 为 常数 ， 那 么 对 于 任何 z 值 ， 模 型 的 预测 也 满足 同样 的 限制 ， 即 
aiy(z)+b=0 (4.19) 


因此 如 果 我 们 使 用 KK 分 类 的 “1-of-K" 表 达 方 式 ， 那 么 这 个 模型 做 出 的 预测 会 具有 下 面 的 性 质 : 对 
于 任意 的 zx 的 值 ，y(x) 的 元 素 的 和 等 于 1。 但 是 ， 这 个 对 于 加 和 的 限制 本 身 并 不 能 够 让 模型 的 输 
出 表示 为 概率 的 形式 ， 因 为 它们 没有 被 限制 在 区 间 (0, 1) 中 。 

最 小 平方 方法 对 于 判别 函数 的 参数 给 出 了 精确 的 解析 解 。 但 是 ， 即 使 作为 一 个 判别 函数 (我 
们 使 用 它 直 接 进行 预测 ， 抛 弃 掉 所 有 的 概率 的 表示 ) ， 它 仍然 有 很 严重 的 问题 。 我 们 已 经 看 
到 ， 最 小 平方 解 对 于 离 群 点 缺少 鲁 棒 性 ， 这 一 点 对 于 分 类 问题 也 是 一 样 的 ， 如 图 44 所 示 。 这 
里 ， 我 们 看 到 ， 右 图 中 的 额外 的 数据 点 对 决策 边界 的 位 置 产生 了 极 大 的 改变 ， 即 使 这 也 点 能 
被 左 图 中 的 原始 的 决策 边界 正确 地 分 类 。 平 方 和 误差 函数 惩罚 了 过 于 正确 的 预测 ， 因 为 他 们 
在 正确 的 一 侧 距 离 决 策 边界 大 远 了 。 在 第 7.1.2 节 ， 我 们 会 考虑 几 种 其 他 的 用 于 分 类 的 误差 函 
数 ， 我 们 会 看 到 这 些 误差 函数 不 会 有 这 种 问题 。 

但 是 ， 最 小 平方 方法 的 问题 实际 上 比 简单 的 缺乏 鲁 棒 性 更 加 严重 ， 如 图 45 所 示 。 这 幅 图 给 
出 了 二 维 空间 (x1, zz) 中 ,来 自 三 个 类 别 的 人 工 生 成 的 数据 。 线 性 决策 边界 能 够 将 数据 点 完美 地 
分 开 。 实 际 上 ， 在 本 章 的 后 面 将 要 介绍 的 逻辑 回归 方法 可 以 给 出 一 个 令 人 满意 的 解 ， 如 右 侧 的 
图 所 示 。 然 而 ， 最 小 平方 方法 给 出 的 结果 相当 差 ， 输入 空间 中 只 有 一 个 相当 小 的 区 域 被 分 给 了 
绿色 的 类 别 。 

最 小 平方 方法 的 失败 并 不 让 我 们 感 党 惊讶。 回忆 一 下 ， 最 小 平方 方法 对 应 于 高 斯 条 件 分 布 假 
设 下 的 最 大 似 然 法 ， 而 二 值 目标 向 量 的 概率 分 布 显然 不 是 高 斯 分 布 。 通 过 使 用 更 恰当 的 概率 模 
型 ， 我 们 会 得 到 性 质 比 最 小 平方 方法 更 好 的 分 类 方法 。 但 是 现在 ， 我 们 继续 研究 另外 的 非 概率 
方法 来 设置 线性 分 类 模型 中 的 参数 。 
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图 4.5: 由 三 个 类 别 组 成 的 人 工 数据 集 的 例子 ， 训 练 数据 点 分 别 用 红色 (x) 、 绿 色 (+) 、 蓝 色 (o) 标 
出 。 直 线 表示 决策 边界 ， 背 景 颜色 表示 决策 区 域 代 表 的 类 别 。 左 图 是 一 个 使 用 最 小 平方 判别 函数 的 结 
果 。 我 们 看 到 分 配 到 绿色 类 别 的 输入 空间 的 区 域 过 小 ， 大 部 分 来 自 这 个 类 别 的 点 都 被 错误 分 类 。 右 图 是 
使 用 4.3.2 节 描述 的 使 用 logistic 回 归 的 结果 ， 给 出 了 训练 数据 的 正确 分 类 情况 。 











4.1.4 Fisher 线 性 判别 函数 


我 们 可 以 从 维度 降低 的 角度 考察 线性 分 类 模型 。 首 先 考 虑 二 分 类 的 情形 。 假 设 我 们 有 一 
个 忆 维 输入 向 量 z， 然 后 使 用 下 式 投影 到 一 维 


4 三 wz (4.20) 


如 果 我 们 在 y 上 设置 一 个 国 值 ， 然 后 把 y > 一 wo 的 样本 分 为 C1 类 ， 把 其 余 的 样本 分 为 C2 类 ， 那 么 
我 们 就 得 到 了 之 前 讨论 的 标准 的 线性 分 类 器 。 通 党 来 说 ， 向 一 维 投影 会 造成 相当 多 的 信息 丢 
失 ， 因 此 在 原始 的 忆 维 空间 能 够 完美 地 分 离开 的 样本 可 能 在 一 维 空间 中 会 相互 重 玻 。 但 是 ， 通 
过 调整 权 向 量 岂 ， 我 们 可 以 选择 让 类 别 之 间 分 开 最 大 的 一 个 投影 。 首 先 ， 考 虑 一 个 二 分 类 问 
题 ， 这 个 问题 中 有 C1 类 的 和 VT 个 点 以 及 C2 类 的 No 个 点 。 因 此 两 类 的 均值 向 量 为 


lL 1 
m1 一 下 Vas Ny = ne pn Wy (4.21) 


NEC1 NEC2 


如 果 投 影 到 Ww 上 ， 那 么 最 简单 的 度量 类 别 之 间 分 开 程度 的 方式 就 是 类 别 均值 投影 之 后 的 距离 。 
这 说 明 ， 我们 可 以 选择 ww 使 得 下 式 取得 最 大 值 


T9271 一 7 (mo m1) (4.22) 


其 中 
mx = WwW Mm (4.23) 


是 来 自 类 别 Ck 的 投影 数据 的 均值 。 但 是 ， 通 过 增 大 w， 这 个 表达 式 可 以 任意 大 。 为 了 解决 这 个 
问题 ， 我 们 可 以 将 忆 限 制 为 单位 长 度 ， 即 >; w; = 1。 使 用 拉 格 朗 日 乘 数 法 来 进行 有 限制 条 件 的 
最 大 化 问题 的 求解 ， 我 们 可 以 发 现 w x (m2 一 m1)。 但 是 ， 这 个 方法 还 有 一 个 问题 ， 如 图 4.6 所 
示 。 这 幅 图 中 的 两 个 类 别 在 原始 二 维 空间 (zx1, zz) 中 可 以 完美 地 被 分 开 ， 但 是 当 投 影 到 连接 它们 
的 均值 的 直线 上 时 ， 就 有 了 一 定 程度 的 重生 。 如 果 类 概率 分 布 的 协 方差 算 阵 与 对 角 化 矩阵 差距 
较 大 ， 那 么 这 种 问题 就 会 出 现 。Fisher 提 出 的 思想 是 最 大 化 一 个 函数 ， 这 个 函数 能 够 让 类 均值 的 
影 分 开 得 较 大 ， 同 时 让 每 个 类 别 内 部 的 方差 较 小 ， 从 而 最 小 化 了 类 别 的 重 盔 。 
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图 4.6: 左 图 给 出 了 来 自 两 个 类 别 (表示 为 红色 和 蓝 色 ) 的 样本 ， 以 及 在 连接 两 个 类 别 的 均值 的 直线 上 的 
投影 的 直方 图 。 注 意 ， 在 投影 空间 中 ， 存 在 一 个 比较 严重 的 类 别 重合 。 右 图 给 出 的 基于 Fisher 线 性 判别 准 
则 的 对 应 投影 ， 表 明了 类 别 切 分 的 效果 得 到 了 极 大 的 提升 。 








影 公 式 (4.20) 将 zx 的 一 组 有 标记 的 数据 点 变换 为 一 位 空间 y 的 一 组 有 标记 数据 点 。 来 自 类 
别 Cx 的 数据 经 过 变换 后 的 类 内 方差 为 


ey (4.24) 


NECE 


其 中 yn = w 了 xn。 我 们 可 以 把 整个 数据 集 的 总 的 类 内 方差 定义 为 5? 十 中。Fisher 准 则 根据 类 间 方 

差 和 类 内 方差 的 比值 定义 ， 即 

(m2 — mi) 
31 十 53 

我 们 可 以 使 用 公式 (4.20) 、 公 式 (4.23) 和 公式 (4.24) 对 这 个 式 子 重 写 ， 显 式 地 表达 

出 J(o) 对 也 的 依赖 。 


J(w) = (4.25) 








J(w) = Se (4.20) 
其 中 Sp 是 类 间 (between-class) 协 方差 矩阵 ， 形 式 为 
SB = (ma — mi)(m2 — m2)” (4.27) 
Sw 被 称 为 类 内 (within-class) 协 方差 矩阵 ， 形 式 为 
Sw = (zn — mi)(zn 一 mi + (xn — m2) (zn — m2)” (4.28) 
NEC1 NnEC2 


对 公式 (4.26) 关于 ww 求 导 ， 我 们 发 现 J(w) 取 得 最 大 值 的 条 件 为 
(wi Spw)Sww = (w Sww)S pw (4.29) 


根据 公式 (4.27) ,我 们 看 到 Spw 总 是 在 (m2 一 m1) 的 方向 上 。 更 重要 的 是 ， 我 们 不 关心 w 的 
大 小 ， 只 关心 它 的 方向 ， 因 此 我 们 可 以 忽略 标量 因子 (w SBw) 和 (w Sww)。 将 公式 (4.29) 
的 两 侧 乘 以 Sy ， 我 们 有 
20 CX SH (m2 — 1) (4.30) 
注意 ， 如 果 类 内 协 方 差 矩 阵 是 各 向 同性 的 ， 从 而 Sw 正比 于 单位 矩阵 ， 那 么 我 们 看 到 ww 正比 于 类 
均值 的 差 。 
公式 (4.30) 的 结果 被 称 为 Fisher 线 性 判别 函数 (Fisher linear discriminant) ， 虽 然 严 格 来 说 
它 并 不 是 一 个 判别 函数 ， 而 是 对 于 数据 向 一 维 投影 的 方向 的 一 个 具体 选择 。 然 而 ， 投 影 的 数据 
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可 以 接 下 来 被 用 于 构建 判别 函数 ， 构 建 的 方法 为 : 选择 一 个 装 值 m， 使 得 当 y(z) > yo 时 ， 我 们 
把 数据 点 分 到 C1， 否 则 我 们 把 数据 点 分 到 C2。 例 如 ， 我 们 可 以 使 用 高 斯 概率 分 布 对 类 条 件 概率 
密度 p(y | Cx) 建 模 ， 然 后 使 用 1.2.4 节 的 方法 通过 最 大 似 然 方 法 找到 高 斯 分 布 的 参数 值 。 找 到 投影 
类 别 的 高 斯 近似 之 后 ，1.5.1 节 的 方法 给 出 了 最 优 的 阔 值 表达 式 。 我 们 注意 到 y = w7z 是 一 组 随 
机 变量 的 和 ， 因 此 根据 中 心 极 限定 理 ， 我 们 可 以 做 出 高 斯 分 布 的 假设 。 


4.1.5 “与 最 小 平方 的 关系 


最 小 平方 方法 确定 线性 判别 函数 的 目标 是 使 模型 的 预测 尽 可 能 地 与 目标 值 接近 。 相 
反 ，Fisher 判 别 准则 的 目标 是 使 输出 空间 的 类 别 有 最 大 的 区 分 度 。 考 察 一 下 这 两 种 方法 之 间 的 关 
系 是 很 有 趣 的 。 特 别 地 ， 我 们 会 证 明 ， 对 于 二 分 类 问题 ，Fisher 准 则 可 以 看 成 最 小 平方 的 一 个 特 
例 。 

目前 为 止 ， 我们 已 经 考虑 了 目标 变量 的 “1-of-K” 表 示 方 法 。 然 而 ， 如 果 我 们 使 用 一 种 稍微 不 
同 的 表达 方法 ， 那 么 权 值 的 最 小 平方 解 就 会 变 得 等 价 于 Fisher 解 (Duda and Hart, 1973) 。 特 别 
地 ， 我 们 让 属于 Ci 的 目标 值 等 于 六 ， 其 中 Ni 是 类 别 C1 的 模式 的 数量 ，N 是 总 的 模式 数量 。 这 个 
目标 值 近似 于 类 别 Ci 的 先 验 概率 的 导数 。 对 于 类 别 C2， 我 们 令 目 标 值 等 于 -总 ， 其 中 N? 是 类 
别 C2 的 模式 的 数量 。 

平方 和 误差 函数 可 以 写成 














N 
B= 3 went wo th) (4.31) 
仿生 上 
令 巨 关于 wo 和 了 刀 的 导数 等 于 零 ， 我 们 有 
N 
> (oraon+wo 一 如 ) =0 (4.32) 
n=1 
N 
>_(wien + wo— tn)rn =0 (4.33) 
== 二 
根据 公式 (4.32) ,使 用 我 们 对 于 目标 值 刀 的 表示 方法 ,我们 可 以 得 到 偏 置 的 表达 式 
wo 一 —_wim (4.34) 
其 中 我 们 使 用 了 下 面 的 结果 
N N 
A m0 (4.35) 
其 中 m 是 所 有 数据 的 均值 ， 定 义 为 
m BE EN 十 Nom2) (4.30) 
二 二 n= (NIMI 27722 ， 
NA N 
通过 一 些 简单 的 计算 ， 并 且 再 次 使 用 我 们 对 于 如 的 新 的 表示 方法 ， 方 程 (4.33) 变 为 
(sw 十 2 so w= N(m1— mo2) (4.37) 


其 中 Sw 由 公式 (4.28) 定义 ，SB 由 公式 (4.27) 定义 ， 并 且 我 们 使 用 公式 (4.34) 的 结果 替换 
了 偏 置 。 使 用 公式 (4.27) ,我 们 注意 到 SBw 总 是 在 (m2 一 m1) 的 方向 上 。 因 此 我 们 有 


20 cx 3 元 (m2 — m1) (4.38) 


其 中 ， 我 们 已 经 色 略 了 不 相关 的 标量 因子 。 因 此 权 向 量 恰好 与 根据 Fisher 判 别 准 则 得 到 的 结果 相 
同 。 此 外 ， 我 们 也 发 现 ， 偏 置 wo 的 值 由 公式 (4.34) 给 出 。 这 告诉 我 们 ， 对 于 一 个 新 的 向 量 z， 
如 果 y(z) = w7(z 一 m) > 0， 那 么 zx 应 该 被 分 到 C1， 否 则 应 该 被 分 到 C2。 
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我 们 现在 考虑 Fisher 判 别 函 数 对 于 K > 2 个 类 别 的 推广 。 我 们 假设 输入 空间 的 维度 DD 大 于 类 
别 数量 K。 接 下 来 ,我 们 引入 D’ > 1 个 线性 “特征 ”yx = wXx， 其 中 k = 1,...,D'。 为 了 方便 ， 
这 些 特征 值 可 以 聚集 起 来 组 成 向 量 y。 类 似 地 ， 权 向 量 {x} 可 以 被 看 成 矩阵 三 的 列 。 因 此 

y= Wz (4.39) 
注意 ,与 之 前 一 样 ， 我 们 在 y 的 定义 中 没有 包含 任何 的 偏 置 参 数 。 类 内 协 方差 矩阵 可 以 使 用 公式 
(4.28) 推广 到 K 类 ， 有 


K 
Sw = 》_ Sk (4.40) 
k=1 

人 中 

Sx = > (zn — Mme) zo mx) (4.41) 
NECk 
1 
mg = >》 Zn (4.42) 
Nk NECE 


其 中 Nx 是 类 别 Cx 中 模式 的 数量 。 为 了 找到 类 间 协 方差 矩阵 的 推广 ， 我 们 使 用 Duda and 
Hart (1973) 的 方法 ， 首 先 考 虑 整体 的 协 方差 矩阵 


N 
ST = i — mMm)(zn 一 mm (4.43) 
n=1 
其 中 mm 是 全 体 数据 的 均值 
Ca i 
m= 南 > Tn 三 去 > Nymex (4.44) 
n=1 1 


其 中 入 = 2 是 数据 点 的 总 数 。 整 体 的 协 方差 矩阵 可 以 分 解 为 公式 〈440) 和 公式 〈4.41) 给 
出 的 类 内 协 方差 矩阵 ， 加 上 另 一 个 矩阵 SB， 它 可 以 看 做 类 间 协 方差 矩阵 。 


97 一 9 二 9P (4.45) 
其 中 
K 
SB = > Ni — Mm) me — mm) (4.40) 
k=1 
协 方差 矩阵 被 定义 在 原始 的 xz 空间 中 。 我 们 现在 在 投影 的 D' 维 y 空 间 中 定义 类 似 的 矩阵 
K 
Sw = 2 (yn — A) (Yn — Hx)T (4.47) 
k=1 nECk 
以 及 
K 
SB = >》 Ne(pr — p) (pr — 1)T (4.48) 
圭 二 
其 中 
1 和 
He= 2 Yn LK= 2 NA (4.49) 
k NECE ke 


与 之 前 一 样 ， 我 们 想 构 造 一 个 标量 ， 当 类 间 协 方差 较 大 且 类 内 协 方差 较 小 时 ， 这 个 标量 会 较 
大 。 有 许多 可 能 的 准则 选择 方式 (Fukunaga, 1990) 。 其 中 一 种 选择 是 


J(W) = Tr{sH sp} (4.50) 
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这 个 判别 准则 可 以 显 式 地 写成 投影 矩阵 三 的 函数 ， 形 式 为 
JW)=Tr{(W SwW) !(W’SBpW)} (4.51) 


最 大 化 这 个 判别 准则 是 很 直接 的 ， 虽然 有 些 麻烦 。 详 细 的 推导 可 以 参考 Fukunaga (1990) 。 权 
值 由 SW SB 的 特征 向 量 确定 ， 它 对 应 了 D' 个 最 大 的 特征 值 。 

值得 强调 的 时 ， 有 一 个 重要 的 结果 对 于 所 有 的 这 些 判 别 准则 都 成 立 。 首 先 ， 根据 公式 
(4.46) ，SB 由 KK 个 矩阵 的 和 组 成 ， 每 一 个 矩阵 都 是 两 个 癌 量 的 外 积 ， 因 此 秩 等 于 1。 此 外 ， 由 
于 公式 (4.44) 给 出 的 限制 条 件 ， 这 些 算 阵 中 只 有 (KK 一 DD) 个 是 相互 独立 的 。 因 此 SB 的 秩 最 大 等 
于 (KK 一 1)， 因 此 最 多 有 (KK 一 1) 个 非 零 特征 值 。 这 表明 ， 向 由 SB 张 成 的 (K 一 1) 维 空间 上 的 投影 
不 会 改变 J(W ) 的 值 ， 因 此 通过 这 种 方法 我 们 不 能 够 找到 多 于 (K 一 了 个 线性 "特征 ”(Fukunaga,， 
1990) 。 


4.1.7 感知 器 算法 


线性 判别 模型 的 另 一 个 例子 是 Rosenblatt (1962) 提出 的 感知 器 算法 。 它 在 模式 识别 算法 的 
历史 上 占有 重要 的 地 位 。 它 对 应 于 一 个 二 分 类 的 模型 ， 这 个 模型 中 ， 和 输入 向 量 zx 首先 使 用 一 个 
固定 的 非 线 性 变换 得 到 一 个 特征 向 量 几 zxz)， 这 个 特征 向 量 然后 被 用 于 构造 一 个 一 般 的 线性 模 
型 ， 形 式 为 








V(z) = f (ob(z)) (4.52) 
其 中 非 线 性 激活 函数 A(:) 是 一 个 阶梯 函数 ， 形 式 为 
二 1l,， a 二 0 
f= i (4.53) 


向 量 p(z) 通 常 包含 一 个 偏 置 分 量 po(x) = 1。 在 之 前 对 于 二 分 类 问题 的 讨论 中 ， 我 们 对 于 目标 变 
量 的 表示 方法 为 4 e {0, 1}， 这 对 于 概率 模型 来 说 是 很 合适 的 。 然 而 ， 对 于 感知 器 来 说 ， 更 方便 
的 做 法 是 使 用 = 十 1 表示 C1， 使 用 t = 一 1 表示 C2， 这 与 激活 函数 的 选择 相 匹 配 。 

用 来 确定 感知 器 的 参数 ww 的 算法 可 以 很 容易 地 从 误差 函数 最 小 化 的 思想 中 得 到 。 误 差 函 数 的 
一 个 自然 的 选择 是 误 分 类 的 模式 的 总 数 。 但 是 ， 这 样 做 会 使 得 学 习 算 法 不 会 很 简单 ， 因 为 这 样 
做 会 使 误差 函数 变 为 w 的 分 段 常 函 数 ， 从 而 当 w 的 变化 使 得 决策 边界 移 过 某 个 数据 点 时 ， 这 个 
函数 会 不 连续 变化 。 这 样 做 还 使 得 使 用 误差 函数 改变 w 的 方法 无 法 使 用 ， 因 为 在 几乎 所 有 的 地 
方 梯度 都 等 于 零 。 

因此 我 们 考虑 一 个 另外 的 误差 函数 ， 被 称 为 感知 器 准则 (perceptron criterion) 。 为 了 推 
导 这 个 函数 ， 我 们 注意 到 我 们 正在 做 的 是 寻找 一 个 权 向 量 w 使 得 对 于 类 别 Ci 中 的 模式 zn 都 
有 w 9(zn) > 0， 而 对 于 类 别 C 中 的 模式 zn 都 有 w 9(zn) < 0。 使 用 t < {一 1, 十 1} 这 种 目标 变 
量 的 表示 方法 ， 我 们 要 做 的 就 是 使 得 所 有 的 模式 都 满足 w (zn)tn > 0。 对 于 正确 分 类 的 模 
式 ， 感 知 器 准则 赋予 零 误 差 ， 而 对 于 误 分 类 的 模式 x,， 它 试 着 最 小 化 一 w 9(zxn)tn。 因 此 ， 感 
知 器 准则 为 

Ep(w)=— >》 w ptn (4.54) 
nEM 
其 中 = %(zn) 和 人 4 表示 所 有 误 分 类 模式 的 集合 。 某 个 特定 的 误 分 类 模式 对 于 误差 函数 的 贡献 
是 ww 空间 中 模式 被 误 分 类 的 区 域 中 的 线性 函数 ， 而 在 正确 分 类 的 区 域 ,误差 函数 等 于 零 。 总 
的 误差 函数 因此 是 分 段 线性 的 。 
我 们 现在 对 这 个 误差 钞 数 使 用 随机 梯度 下 降 算 法 。 这 样 ， 权 向 量 w 的 变化 为 


其 中 7 是 学 习 率 参数 ，7 是 一 个 整数 ， 是 算法 运行 次 数 的 索引 。 如 果 我 们 将 w 乘 以 一 个 常数 ， 那 
么 感知 器 函数 y(z,w) 不 变 ， 因 此 我 们 可 以 令 学 习 率 参数 1 等 于 1 而 不 失 一 般 性 。 注 意 ， 随 着 训练 
过 程 中 权 向 量 的 不 断 改变 ， 误 分 类 的 模式 也 会 改变 。 

感知 器 学 习 算法 可 以 简单 地 表示 如 下 。 我 们 反复 对 于 训练 模式 进行 循环 处 理 ， 对 于 每 个 模 
式 zn 我 们 计算 感知 器 函数 (4.52) 。 如 果 模 式 正确 分 类 ， 那 么 权 向 量 保持 不 变 ， 而 如 果 模 式 被 
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图 4.7: 感知 器 算法 收敛 性 的 说 明 ， 给 出 了 二 维特 征 空间 (91, 2) 中 的 来 自 两 个 类 别 的 数据 点 (红色 和 蓝 
色 ) 。 左 上 图 给 出 了 初始 参数 向 量 w， 表 示 为 黑色 箭头 ， 以 及 对 应 的 决策 边界 〈 黑 色 直 线 ) ， 其 中 箭头 
指向 被 分 类 为 红色 类 别 的 决策 区 域 。 用 绿色 圆圈 标 出 的 数据 点 被 误 分 类 ， 因 此 它 的 特征 向 量 被 加 到 当前 
的 权 向 量 中 ， 给 出 了 新 的 决策 边界 ， 如 右上 图 所 示 。 左 下 图 给 出 了 下 一 个 误 分 类 的 点 ， 用 绿色 圆圈 标 
出 ， 它 的 特征 向 量 再 次 被 加 到 权 向 量 上 ,给 出 了 右 下 图 的 决策 边界 。 这 个 边界 中 所 有 的 数据 点 都 被 正确 


分 类 。 





140 
wwaibbt.com DUODOODOD 








重 


图 4.8: Mark 1 感知 器 硬件 。 左 图 展示 了 输入 是 如 何 使 用 一 个 照相 机 得 到 的 ， 其 中 输入 空间 ， 在 这 种 情形 
下 是 一 个 印刷 的 汉字 ， 被 强 光 照射 ， 从 而 一 张 图 像 被 集中 到 了 一 个 20 x 20 的 硫化 锅 光 电 管 的 阵列 上 ， 形 
成 了 一 个 原始 的 400 像 素 图 像 。 感 知 器 也 有 一 个 接线 板 ， 如 中 图 所 示 。 它 使 得 机 器 可 以 尝试 输入 特征 的 不 
同 配置 。 通 常 这 些 线 被 随机 连接 ， 展 示 了 感知 器 的 学 习 能 力 不 需 要 精确 的 接线 ， 这 与 现代 数字 计算 机 不 
同 。 右 图 的 照片 展示 了 一 个 可 调节 权 值 的 支架 。 每 个 权 值 使 用 一 个 滑动 变阻器 实现 ， 这 个 滑动 变阻器 也 
被 称 为 分 压 器 。 它 被 一 个 电动 机 驱动 ， 因 此 使 得 权 值 可 以 通过 学 习 算 法 自动 被 调节 。 








错误 分 类 ， 那 么 对 于 类 别 C1， 我 们 把 向 量 $(zn) 加 到 当前 对 于 权 向 量 w 的 估计 值 上 ， 而 对 于 类 
别 Cz， 我 们 从 忆 中 减 掉 向 量 (zna)。 图 4.7 说 明了 感知 器 学 习 算法 。 

如 果 我 们 考虑 感知 器 学 习 算法 中 一 次 权 值 更 新 的 效果 ， 我 们 可 以 看 到 ， 一 个 误 分 类 模式 对 于 
误差 函数 的 页 献 会 逐渐 减 小 。 因 为 根据 公式 (4.55) ， 我 们 有 


—w td Tg, t, 一 —w Tp, tn (patn)’ Putn < -wT ptn (4.50) 


其 中 我 们 令 n = 1， 并 且 使 用 了 不 等 式 | 如 | > 0。 当 然 ， 这 并 不 表明 其 他 的 误 分 类 模式 对 于 
误差 函数 的 贡献 会 减 小 。 此 外 ， 权 向 量 的 改变 会 使 得 某 些 之 前 正确 分 类 的 样本 变 为 误 分 类 。 因 
此 感知 器 学 习 规 则 并 不 保证 在 每 个 阶段 都 会 减 小 整体 的 误差 函数 。 

然而 ， 感 知 器 收敛 定理 (perceptron convergence theorem) 表明 ， 如 果 存 在 一 个 精确 的 解 
( 即 ， 如 果 训 练 数 据 线性 可 分 ) ， 那 么 感知 器 算法 可 以 保证 在 有 限 步 又 内 找到 一 个 精确 解 。 
这 个 定理 的 证 明 可 以 参考 Rosenblatt (1962) 、Block (1962) 、Nilsson (1965) 、Minsky and 
Papert (1969) 、Hertz et al. (1991) 以 及 Bishop (1995a) 。 但 是 ， 需 要 注意 的 是 ， 达 到 收敛 状 
态 所 需 的 步骤 数量 可 能 非常 大 ， 并 且 在 实际 应 用 中 ， 在 达到 收敛 状态 之 前 ， 我 们 不 能 够 区 分 不 
可 分 问题 与 缓慢 收敛 问题 。 

即使 数据 集 是 线性 可 分 的 ， 也 可 能 有 多 个 解 ， 并 且 最 终 哪 个 解 会 被 找到 依赖 于 参数 的 初始 化 
以 及 数据 点 出 现 的 顺序 。 此 外 ， 对 于 线性 不 可 分 的 数据 集 ， 感 知 器 算法 永远 不 会 收敛 。 

除了 学 习 算法 的 这 些 困难 之 处 以 外 ， 感 知 右 算法 无 法 提供 概率 形式 的 输出 ， 也 无 法 直接 推广 
到 KK > 2 个 类 别 的 情形 。 然 而 ， 最 重要 的 局 限 性 是 它 基 于 固定 基 函 数 的 线性 组 合 (本 章 中 和 
前 一 章 中 讨论 的 所 有 模型 都 是 这 样 ) 。 关 于 感知 器 算法 更 多 的 局 限 性 ， 可 以 参考 Minsky and 
Papert (1969) 和 Bishop (1995a) 。 

Rosenblatt 建 立 了 感知 算法 的 一 个 模拟 的 硬件 实现 ， 使 用 发 动机 驱动 的 可 变 电 阻 来 实现 可 调 
节 参 数 wj。 图 4.8 说 明了 这 一 点 。 输 入 从 一 个 摄像 系统 中 得 到 ， 这 个 摄像 系统 基于 光 传 感 器 阵 
列 ， 而 基 函 数 % 可 以 选 为 不 同 的 形式 ， 例 如 基于 输入 图 像 的 像素 子 集 随 机 选择 简单 的 固定 基 画 
数 。 典 型 的 应 用 包括 区 分 简单 的 图 形 和 汉字 。 

同时 ,一 个 与 感知 器 关系 密切 的 系统 adaline 促 进 了 感知 器 算法 的 发 展 。adaline 是 “adaptive 
linear element 的 简称 ， 由 Widrow 以 及 他 的 合作 者 开发 。 这 个 模型 的 函数 形式 与 感知 器 相同 ， 但 
是 训练 方法 不 同 (Widrow and Hoff, 1960; Widrow and Lehr 1990) 。 


4.2 ”概率 生成 式 模型 


我 们 接 下 来 用 概率 的 观点 考察 分 类 问题 ， 并 且说 明 具 有 线性 决策 边界 的 模型 如 何 通 过 对 数据 
分 布 的 简单 假设 得 到 。 在 1.5.4 节 ， 我 们 讨论 了 判别 式 模型 和 生成 式 模型 的 区 别 。 这 里 我 们 会 使 
用 生成 式 的 方法 。 这 种 方法 中 ， 我 们 对 类 条 件 概率 密度 pz(z | Cx) 和 类 先 验 概率 分 布 p(Ck) 建 模 ， 
然后 使 用 这 两 个 概率 密度 通过 贝 叶 斯 定理 计算 后 验 概 率 密度 p(Ci | z)。 
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图 4.9: 由 公式 (4.59) 定义 的 logistic sigmoid 函 数 c(o) 的 图 像 ， 用 红色 表示 。 同 时 给 出 的 是 放 缩 后 的 
逆 probit 函 数 亚 (Xo) 的 图 像 ， 其 中 X2 = xz/8， 用 蓝 色 曲线 表示 ，B(a) 由 公式 (4.114) 定义 。 缩 放 因 
子 r/8 使 得 两 条 曲线 在 = 0 处 的 导数 相同 。 

首先 考虑 二 分 类 的 情形 。 类 别 C1 的 后 验 概率 可 以 写成 
p(x | C1)p(C1) 





p(C1 | 2) = 


~ p(x | C1)p(C1) + p(x | C2)p(C2) (4.57) 
1 
一 1 十 expb( 一 Q) 二 六 
其 中 我 们 定义 了 
a In ?FCVPCY) (4.58) 


且 c(o) 是 logistic sigmoid 函 数 ， 定 义 为 
1 


Se (4.59) 


o (a) 





图 49 给 出 了 这 个 函数 的 图 像 。 sigmoid 的 意思 是 S 形 。 这 种 函数 有 时 被 称 为 挤 压 函数 ， 因 为 
它 把 整个 实数 轴 映 射 到 了 一 个 有 限 的 区 间 中 。 我 们 在 之 前 的 章节 中 已 经 遇 到 了 logistic sigmoid 函 
数 。 这 个 通 数 在 许多 分 类 算法 中 都 有 着 重要 的 作用 。 它 满足 下 面 的 对 称 性 


o(—a)=1— ol(a) (4.60) 


这 个 性 质 很 容易 证 明 。logistic sigmoid 的 反 函 数 为 


a=In (7) (4.61) 


被 称 为 logit 函 数 。 它 表示 两 类 的 概率 比值 的 对 数 In | 开国 | ， 也 被 称 为 log odds 函 数 。 
注意 在 公式 (4.57) 中 ， 我 们 只 是 把 后 验 概率 写成 了 一 个 等 价 的 形式 ， 因 此 logistic sigmoid 函 
数 的 出 现 似乎 相当 没有 意义 。 然 而 ， 假 设 a(z) 的 函数 形式 相当 简单 ， 那 么 这 种 表示 方法 就 很 有 
用 了 。 我 们 稍 后 会 考虑 a(z) 是 z 的 线性 函数 的 情形 。 这 种 情况 下 ， 后 验 概率 由 一 个 通用 的 线性 模 
型 确定 。 
对 于 K > 2 个 类 别 的 情形 ， 我 们 有 








p(w | Cr)p(Cx) 
Pp(Ck | £) = D7; plz | Ci)p(C;) 
exp(ax) 


> exp(aj) 
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(4.62) 











图 4.10: 左 图 给 出 了 两 个 类 别 的 类 条 件 概 率 密度 ， 分 别 用 红色 和 蓝 色 表示 。 右 图 给 出 了 对 应 的 后 验 概率 
分 布 p(C1 | zx)， 它 由 z 的 线性 函数 的 logistic sigmoid 函 数 给 出 。 右 图 的 曲面 的 颜色 中 ， 红 色 所 占 的 比例 
由 p(C1 | 2) 给 出 ， 蓝 色 所 占 的 比例 由 p(C2 | z) = 1 一 p(C1 | z) 给 出 。 


它 被 称 为 归 一 化 指数 (normalized exponential) ， 可 以 被 当做 logistic sigmoid 蚤 数 对 于 多 类 情况 
的 推广 。 这 里 a 被 定义 为 
ax = Inp((zx | Cx)p(Cx)) (4.63) 
归 一 化 指数 也 被 称 为 softmax 了 水 数 ， 因 为 它 表 示 “max 函数 的 一 个 平滑 版 本 。 这 是 因为 ， 如 果 对 
于 所 有 的 7 关上 都 有 ax 之 a;， 那 么 p(Ck | x) 之 18p(C; | x) 守 0。 
我 们 现在 考虑 选择 具体 的 类 条 件 概率 密度 形式 的 情况 下 的 结果 ， 首 先 讨 论 连 续 输入 变量 z 的 
情形 ， 然 后 简短 地 讨论 离散 输入 的 情形 。 


4.2.1 连续 输入 


证 我 们 假设 类 条 件 概率 密度 是 高 斯 分 布 ， 然 后 求解 后 验 概 率 的 形式 。 首 先 ， 我 们 假定 所 有 的 
类 别 的 协 方差 矩阵 相同 。 这 样 类 别 Cx 的 类 条 件 概 率 为 





ep { -Be — pa) (op) \ (6 


p(z | Ck) = x 
(27) 3 [Dl 


首先 考虑 两 类 的 情形 。 根 据 公式 (4.57) 和 公式 (4.58) ,我 们 有 





p(C1 | z) = o(w z+ wo) (4.65) 
其 中 我 们 定义 了 
w= (hp) (4.60) 
1 1 C 
0 一 一 5UL3 pty Ho 十 人 (4.67) 


我 们 看 到 ， 高 斯 概率 密度 的 指数 项 中 z 的 二 次 型 消失 了 (这 是 因为 我 们 假设 类 概率 的 协 方差 矩 
阵 相 同 ) ， 从 而 得 到 了 参数 为 z 的 线性 函数 的 logistic sigmoid 沙 数 。 图 4.10 给 出 了 二 维 输入 空 
间 z 的 情况 下 的 结果 。 最 终 求 得 的 决策 边界 对 应 于 后 验 概率 p(Ck | z) 为 常数 的 决策 面 ， 因 此 
由 z 的 线性 函数 给 出 ， 从 而 决策 边界 在 输入 空间 是 线性 的 。 先 验 概率 密度 p(C') 只 出 现在 偏 置 参 
数 wo 中 ， 因 此 先 验 的 改变 的 效果 是 平移 决策 边界 ， 即 平移 后 验 概率 中 的 常数 轮廓 线 。 

对 于 天 个 类 别 的 一 般 情 形 ， 根据 公 式 (4.62) 和 公式 (4.63) ,我 们 有 


ak(Z) = wiz 十 Wk0 (4.68) 
其 中 我 们 定义 了 
wk 二 b> (4.69) 
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图 4.11: 左 图 给 出 了 三 个 类 别 的 类 条 件 概率 密度 ， 每 个 都 是 高 斯 分 布 ， 分 别 用 红色 、 绿 色 、 蓝 色 表 示 ， 其 
中 红色 和 绿色 的 类 别 有 相 同 的 协 方差 矩阵 。 右 图 给 出 了 对 应 的 后 验 概率 分 布 ， 其 中 RGB 的 颜色 向 量 表示 
三 个 类 别 各 自 的 后 验 概率 。 决 策 边 界 也 被 画 出 。 注 意 ， 具 有 相同 协 方差 矩阵 的 红色 类 别 和 绿色 类 别 的 决 
策 边 界 是 线性 的 ， 而 其 他 类 别 之 间 的 类 别 的 决策 边界 是 二 次 的 。 


1 
ZUK0 一 -5 Dy + lnp(Cx) (4.70) 


我 们 看 到 aj.(z) 与 之 前 一 样 是 zx 的 线性 函数 ， 这 是 因为 各 个 类 别 的 协 方差 矩阵 相同 ， 使 得 二 次 项 
被 消去 。 最 终 的 决策 边界 ， 对 应 于 最 小 错误 分 类 率 ， 会 出 现在 后 验 概率 最 大 的 两 个 概率 相等 的 
位 置 ， 因 此 由 z 的 线性 函数 定义 ， 从 而 我 们 再 次 得 到 了 一 个 一 般 的 线性 模型 。 

如 果 我 们 不 假设 各 个 类 别 的 协 方差 矩阵 相同 ， 人 允许 每 个 类 条 件 概率 密度 p(x | Ck) 有 自己 的 协 
方差 矩阵 到， 那么 之 前 二 次 项 消去 的 现象 不 会 出 现 ， 从 而 我 们 会 得 到 z 的 二 次 函数 ， 这 就 引出 
了 二 次 判别 函数 (quadratic discriminant) 。 图 4.11 给 出 了 线性 决策 边界 和 二 次 决策 边界 。 


4.2.2 最 大 似 然 解 

一 旦 我 们 具体 化 了 类 条 件 概 率 密度 p(x | Ck) 的 参数 化 的 函数 形式 ， 我 们 就 能 够 使 用 最 大 似 然 
法 确定 参数 的 值 ， 以 及 先 验 类 概率 p(Cx)。 这 需要 数据 集 由 观测 zx 以 及 对 应 的 类 别 标签 组 成 。 

首先 考虑 两 类 的 情形 ， 每 个 类 别 都 有 一 个 高 斯 类 条 件 概率 密度 ， 且 协 方差 矩阵 相同 。 我 们 假 
设 我 们 有 一 个 数据 集 {zn,tn}， 其 中 nn = 1,.….,NN。 这 里 tn = 1 表示 类 别 C1，tn, = 0 表示 类 别 C2。 
我 们 把 先 验 概率 记 作 p(C1) = 7+， 从 而 p(C2) = 1 一 +。 对 于 一 个 来 自 类 别 C1 的 数据 点 zw， 我 们 
有 tn =1， 因 此 

p(xn,C1) 一 D(CUJP(Zn | C1) 一 TAN (zn | po1, E) 
类 似 地 ， 对 于 类 别 C2， 我 们 有 th = 0， 因 此 
p(xn,C2) = p(C2)p(zn | C2) = (1 — AN (zn | p12, >) 


于 是 似 然 函数 为 
N 
plt, X | rp p25) = TaNea | po BDI DN | pa BT) (47 
n=1 


其 中 t = (t1,.….,tN)*。 与 之 前 一 样 ， 最 大 化 似 然 函数 的 对 数 比较 方便 。 首 先 考 虑 关于 7 的 最 大 
化 。 对 数 似 然 函 数 中 与 + 相关 的 项 为 


N 
D>_{inlnn + (1— tn)In(l — 7)} (4.72) 


n=1 
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令 其 关于 7 的 导数 等 于 零 ， 整 理 ， 可 得 


N 
1 N TV 
RE 3 t, 1 1 (4.73) 


a 


其 中 入 表示 类 别 C1 的 数据 点 的 总 数 ， 而 Ne 表示 类 别 C2 的 数据 点 总 数 。 因 此 ，7 的 最 大 似 然 估计 
就 是 类 别 C1 的 点 所 占 的 比例 ， 这 与 我 们 预期 的 相同 。 这 个 结果 很 容易 推广 到 多 类 的 情形 。 与 两 
类 的 情况 相同 ， 在 多 类 的 情形 中 ， 类 别 C 的 先 验 概 率 估计 为 这 个 类 别 的 数据 点 数量 占 训 练 集 总 
数据 的 比例 。 

现在 考虑 关于 /的 最 大 化 。 与 之 前 一 样 ， 我 们 把 对 数 似 然 函 数 中 与 Wi 相关 的 量 挑 出 来 ， 即 


N N 
Dain Nen | p12) = -3 (en en + 常数 (479 
n=1 n=1 
令 它 关于 和 的 导数 等 于 零 ， 整 理 可 得 
1 N 
Li = nN 2 tn mn (4.75) 


这 就 是 属于 类 别 C1 的 输入 向 量 zx 的 均值 。 通 过 类 似 的 推导 ， 对 应 的 1 的 结果 为 
1 N 
2= >》 (1 一 如 )zn (4.70) 


n=1 


与 之 前 一 样 ， 它 是 属于 类 别 C2 的 输入 向 量 zn 的 均值 。 
最 后 ， 考 虑 协 方差 矩阵 翌 的 最 大 似 然 解 。 选 出 与 忆 相 关 的 项 ， 我 们 有 


ja Te 
一 了 Dh In|>| 一 5 St 一 后 六 (zn — pi) 
n=1 n=1 





A (4.77) 

n=1 ot 

一 > ln |3| 区 

其 中 我 们 已 经 定义 了 交 

一 万 和 2 (4.78) 
$1 = Dn pon mm) (4.79) 

NEC1 
$2 = Don ton to) (4.80) 

mEC2 


使 用 高 斯 分 布 的 最 大 似 然 解 的 标准 结果 ， 我 们 看 到 对 = 3， 它 表示 对 一 个 与 两 类 都 有 关系 的 协 
方差 算 阵 求 加 权 平 均 。 

这 个 结果 很 容易 推广 到 玉 类 问题 ， 得 到 参数 的 对 应 的 最 大 似 然 解 。 其 中 我 们 假定 每 个 类 条 件 
概率 密度 都 是 高 斯 分 布 ， 协 方差 矩阵 相同 。 注 意 ， 拟 合 类 高 斯 分 布 的 方法 对 于 离 群 点 并 不 鲁 
棒 ， 因 为 高 斯 的 最 大 似 然 估计 是 不 鲁 棒 的 。 
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4.2.3 ”离散 特征 


现在 让 我 们 考虑 离散 特征 值 zx 的 情形 。 为 了 简化 起 见 ， 我们 首先 考察 二 元 特征 
值 z; € {0,1}， 稍 后 会 讨论 如 何 推 广 到 更 一 般 的 离散 特征 。 如 果 有 DD 个 输入 ， 那 么 一 般 的 概率 分 
布 会 对 应 于 一 个 大 小 为 2” 的 表格 ,包含 2” 一 1 个 独立 变量 (由 于 要 满足 加 和 限制 ) 。 由 于 这 会 
随 着 特征 的 数量 指数 增长 ， 因 此 我 们 想 寻 找 一 个 更 加 严格 的 表示 方法 。 这 里 ， 我 们 做 出 朴素 贝 
叶 斯 (naive Bayes) 的 假设 ， 这 个 假设 中 ,特征 值 被 看 成 相互 独立 的 ， 以 类 别 Ck 为 条 件 。 因 此 
我 们 得 到 类 条 件 分 布 ， 形 式 为 





D 
六 全 | La (4.81) 
2 一 工 
其 中 对 于 每 个 类 别 ， 都 有 DD 个 独立 的 参数 。 代 入 公式 (4.63) ， 我 们 有 
D 
ak(Z) = > {ziln prit (1— zi)ln(l — pxi)} + Inp(Cx) (4.82) 
i=1 


与 之 前 一 样 ， 这 是 输入 变量 x; 的 线性 函数 。 对 于 KK = 2 个 类 别 的 情形 ， 我 们 可 以 考虑 另 一 种 方 
法 ， 即 公式 (4.57) 给 出 的 logistic sigmoid 函 数 。 离 散 变量 也 有 类 似 的 结果 ， 其 中 ， 每 个 离散 变 
量 有 M > 2 种 状态 。 
4.2.4 ”指数 族 分 布 
正如 我 们 已 经 看 到 的 ， 无 论 是 服从 高 斯 分 布 的 输入 ， 还 是 离散 的 输入 ， 后 验 类 概率 密度 都 是 
由 一 般 的 线性 模型 和 logistic sigmoid (K = 2 个 类 别 ) 或 者 softmax (K > 2 个 类 别 ) 激活 函数 给 
出 。 通 过 假定 类 条 件 概率 密度 p(z | Ck) 是 指数 族 分 布 的 成 员 ， 我 们 可 以 看 到 上 述 结果 都 是 更 一 
般 的 结果 的 特例 。 
使 用 公式 (2.194) 给 出 的 指数 族 分 布 的 形式 ， 我 们 可 以 看 到 z 的 分 布 可 以 写成 下 面 的 形式 
D(x | Ah) = h(x)g(M) exp{ A u(r)} (4.83) 
我 们 现在 把 注意 力 集中 在 u(x) = z 这 种 分 布 上 。 然 后 ， 我 们 使 用 公式 (2.236) 引入 一 个 缩放 参 
数 s， 这 样 我 们 就 得 到 了 指数 族 类 条 件 概率 分 布 的 一 个 子 集 
D(Z | Ar 5) = 性 (3) g(AMx) exp 人 ge (4.84) 
5 \s 5 


注意 我 们 让 每 个 类 别 有 自 己 的 参数 向 量 息 ， 但 是 我 们 假定 各 个 类 别 有 同 样 的 缩放 参数 s。 
对 于 二 分 类 问题 ， 我 们 把 这 个 类 条 件 概率 密度 的 表达 式 代 入 公式 (4.58) ， 我们 看 到 后 验 概 
率 与 之 前 一 样 是 一 个 作用 在 线性 函数 o(z) 上 的 logistic sigmoid 函 数 。a(z) 的 形式 为 
a(z) = (Al 一 和 oz)7z 十 ljng(Ali) 一 lng(Xz) 十 lnp(C1) — lnp(C2) (4.85) 
类 似 地 ， 对 于 天 类 问题 ， 我 们 把 类 条 件 概 率 密度 的 表达 式 代 入 公式 (4.63) ， 得 


1 
ak(2) = MT +lng(Mx) + lnp(Cx) (4.80) 


这 又 是 一 个 z 的 线性 函数 。 
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图 4.12: 线性 分 类 模型 的 非 线性 基 函 数 的 作用 的 说 明 。 做 题 给 出 了 原始 的 输入 空间 (zi, zz) 以 及 标记 为 红 
色 和 蓝 色 的 数据 点 。 这 个 空间 中 定义 了 两 个 “高 斯 " 基 函 数 p1(z) 和 G2(X)， 中 心 用 绿色 十 字 表 示 ， 轮 廓 线 
用 绿色 圆 形 表 示 。 右 图 给 出 了 对 应 的 特征 空间 (81, 82) 以 及 线性 决策 边界 。 决 策 边界 由 4.3.2 节 讨论 的 线性 
回归 模型 得 到 。 对 应 的 在 原始 空间 中 的 非 线性 决策 边界 在 左 图 中 用 黑色 曲线 标记 出 。 





4.3 概率 判别 式 模型 


对 于 二 分 类 问题 ， 我 们 已 经 看 到 ， 对 于 一 大 类 的 类 条 件 概 率 密 度 p(z | Cx) 的 选择 ， 类 
别 Ci 后 验 概 率 分 布 可 以 写成 作用 于 z 的 线性 函数 上 的 logistic sigmoid 函 数 的 形式 。 类 似 地 ， 对 
于 多 分 类 的 情形 ， 类 别 C 的 后 验 概率 由 z 的 线性 函数 的 softmax 变 换 给 出 。 对 于 类 条 件 概 率 密 
度 p(z | Ck) 的 具体 的 选择 ， 我 们 已 经 使 用 了 最 大 似 然 方 法 估计 了 概率 密度 的 参数 以 及 类 别 先 
验 p(Ck)， 然 后 使 用 贝 叶 斯 定理 就 可 以 求 出 后 验 类 概率 。 

然而 ， 另 一 种 方法 是 显示 地 使 用 一 般 的 线性 模型 的 函数 形式 ， 然 后 使 用 最 大 似 然 法 直接 确 
定 它 的 参数 。 我 们 会 看 到 ， 寻 找 这 样 的 解 有 一 个 高 效 的 算法 ， 被 称 为 迭代 重 加 权 最 小 平方 
(iterative reweighted least squares) ,或 者 简称 IRLS。 

寻找 一 般 的 线性 模型 参数 的 间接 方法 是 ， 分 别 寻找 类 条 件 概 率 密度 和 类 别 先 验 ， 然 后 使 
用 贝 叶 斯 定理 。 这 是 生成 式 建 模 的 一 个 例子 。 这 是 因为 ， 我 们 可 以 拿 来 这 个 模型 ， 从 边缘 
分 布 p(z) 中 取出 一 个 z 的 值 ， 然 后 人 工 生成 数据 。 在 直接 方法 中 ， 我 们 最 大 化 由 条 件 概 率 分 
布 p(Ci | z) 定 义 的 似 然 函 数 。 这 种 方法 代表 了 判别 式 训练 的 一 种 形式 。 判 别 式 方法 的 一 个 优点 
是 通常 有 更 少 的 可 调节 参数 需要 确定 ， 正 如 我 们 稍 后 会 看 到 的 那样 。 并 且 预 测 表现 也 会 提升 ， 
尤其 是 当 类 条 件 概率 密度 的 假设 没有 很 好 地 近似 真实 的 分 布 的 时 候 更 是 如 此 。 











4.3.1 固定 基 浮 数 


本 章 中 目前 为 止 ， 我 们 已 经 考虑 了 直接 对 输入 向 量 (Z) 进 行 分 类 的 分 类 模型 。 然 而 ， 如 果 我 
们 首先 使 用 一 个 基 函 数 向 量 几 (z) 对 输入 变量 进行 一 个 固定 的 非 线性 变换 ， 所 有 的 这 些 算法 仍然 
同样 适用 。 最 终 的 决策 边界 在 特征 空间 % 中 是 线性 的 ， 因 此 对 应 于 原始 z 空 间 中 的 非 线性 决策 边 
界 ， 如 图 4.12 所 示 。 在 特征 空间 9(z) 线 性 可 分 的 类 别 未 必 在 原始 的 观测 空间 z 中 线性 可 分 。 与 我 
们 对 于 回归 的 线性 模型 的 讨论 一 样 ， 基 活 数 中 的 某 一 个 通常 设置 为 常数 ， 例 如 po(z) = 1， 使 得 
对 应 的 参数 wo 扮演 偏 置 的 作用 。 对 于 本 章 的 剩余 部 分 ， 我们 会 使 用 一 个 固定 基 浮 数 变 换 $(zx)， 
因为 这 会 引出 一 些 与 第 3 章 中 讨论 的 回归 模型 相似 的 地 方 。 

对 于 许多 实际 问题 来 说 ， 类 条 件 概 率 密度 p(x | Cx) 之 间 有 着 相当 大 的 重合。 这 表明 至 少 对 于 
某 些 x 的 值 ， 后 验 概率 p(Cx | z) 不 等 于 0 或 1。 在 这 种 情况 下 ， 最 优 解 可 以 通过 下 面 的 方式 获 
得 : 对 后 验 概率 精确 建 模 ， 然 后 使 用 第 1 章 中 讨论 的 标准 的 决策 论 。 需 要 注意 的 是 ， 非 线性 变 
换 p(z) 不 会 消除 这 些 重 个。 实际 上 ， 这 些 变 换 会 增加 重 盖 的 程度 ， 或 者 在 原始 观测 空间 中 不 存 
在 重生 的 地 方 产生 出 新 的 重 倒 。 然 而 ， 恰 当地 选择 非 线性 变换 能 够 让 后 验 概率 的 建 模 过 程 更 简 
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单 。 

这 样 的 固定 基 冰 数 模型 有 着 重要 的 局 限 性 ， 这 些 局 限 性 在 后 续 的 章节 中 会 被 解决 ， 解 决 方法 
为 允许 基 函 数 自身 根据 数据 进行 调节 。 尽 管 有 这 些 限制 ， 固 定 基 浮 数 模型 在 实际 应 用 中 起 着 重 
要 的 作用 。 关 于 这 个 模型 的 讨论 会 引出 许多 重要 的 概念 ， 这 些 概 念 对 于 理解 更 复杂 的 模型 很 必 
要 。 





4.3.2 ”logistic 回 归 


我 们 首先 通过 二 分 类 问题 开始 我 们 对 于 一 般 线性 模型 方法 的 讨论 。 在 4.2 节 我 们 对 于 生成 式 
方法 的 讨论 中 ， 我 们 看 到 在 一 些 相当 一 般 的 假设 条 件 下 ， 类 别 Ci 的 后 验 概 率 可 以 写成 作用 在 特 
征 向 量 $ 的 线性 函数 上 的 logistic sigmoid 函 数 的 形式 ， 即 


p(C119) =Y(9) = o(w’ 9) (4.87) 


且 p(C2 | $9) = 1 一 p(C1 | 9$)。 这 里 o(:) 是 公式 (4.59) 定义 的 logistic sigmoid 函 数 。 使 用 统计 学 的 
术语 ， 这 个 模型 被 称 为 logistic 回 归 ， 虽 然 应 该 强调 的 一 点 是 ， 这 是 一 个 分 类 模型 而 不 是 回归 模 
型 。 


对 于 一 个 M 维 特征 空间 Pp， 这 个 模型 有 M 个 可 调节 参数 。 相 反 ， 如 果 我 们 使 用 最 大 似 然 方法 
调节 了 高 斯 类 条 件 概 率 密度 ， 那 么 我 们 有 2M 个 参数 来 描述 均值 ， 以 及 雪人 个 参数 来 描述 
(共享 的 ) 协 方差 矩阵 。 算 上 类 先 验 p(C1)， 参 数 的 总 数 为 必 C+35 + 1， 这 随 着 M 的 增长 而 以 二 
次 的 方式 增长 。 这 和 logistic 回 归 方法 中 对 于 参数 数量 M 的 线性 依赖 不 同 。 对 于 大 的 M 值 ， 直 接 
使 用 logistic 回 归 模 型 有 着 很 明显 的 优势 。 
我 们 现在 使 用 最 大 似 然 方 法 来 确定 logistic 回 归 模 型 的 参数 。 为 了 完成 这 一 点 ， 我 们 要 使 
用 logistic sigmoid 函 数 的 导数 ， 它 可 以 很 方便 地 使 用 sigmoid 函 数 本 身 表示 如 下 


do 
da 一 


对 于 一 个 数据 集 B,,tn， 其 中 tn € {0,1} 且 9 = 9$(zn)， 并 且 n = 1,.…, 入， 似 然 函数 可 以 写 
成 





o(1—0) (4.88) 


-II {1 — ym} (4.89) 


其 中 t = (1,.….,tN) 且 yn 一 p(C1 | 9,)。 与 之 前 一 样 ， 我 们 可 以 通过 取 似 然 函 数 的 负 对 数 的 方 
式 ， 定 义 一 个 误差 函数 。 这 种 方式 产生 了 交叉 炉 (cross-entropy) 误差 函数 ， 形 式 为 








E(w)= -lnp(t -Dont + (1 tn) ln(l — vyn)} (4.90) 


其 中 yn = o(an) 且 an = Ww 了 9,。 两 侧 关 于 ww 取 误差 函数 的 梯度 ， 我 们 有 


N 


VE(w) = > (yn — tn) pn (4.91) 


n=] 


推导 时 我 们 使 用 了 公式 (4.88) 。 我 们 看 到 ， 涉 及 到 logistic sigmoid 的 导数 的 因子 已 经 被 消去 ， 
使 得 对 数 似 然 函数 的 梯度 的 形式 十 分 简单 。 特 别 地 ， 数 据点 n 对 梯度 的 贡献 为 目标 值 和 模型 预测 
值 之 间 的 “误差 ”yn 一 如 与 基 函 数 向 量 加 相 乘 。 此 外 ， 与 公式 (3.13) 的 对 比 表明 ， 它 的 函数 形 
式 与 线性 回归 模型 中 的 平方 和 误差 函数 的 梯度 的 函数 形式 完全 相同 。 

如 果 必 要 的 话 ， 我 们 可 以 使 用 公式 (4.91) 的 结果 提出 一 个 顺序 算法 ， 这 种 算法 中 ， 每 次 只 
出 现 一 个 模式 ， 权 向 量 使 用 公式 (3.22) 更 新 ， 其 中 VEn 是 公式 (491) 的 第 n 项 。 

值得 注意 的 一 点 是 ， 最 大 似 然 方 法 对 于 线性 可 分 的 数据 集会 产生 严重 的 过 拟 合 现象 。 这 是 由 
于 最 大 似 然 解 出 现在 超 平 面 对 应 于 o 二 0.5 的 情况 ， 它 等 价 于 w 9 = 0。 最 大 似 然 解 把 数据 集 分 
成 了 两 类 ， 并 且 w 的 大 小 趋向 于 无 穷 大 。 这 种 情况 下 ，logistic sigmoid 函 数 在 特征 空间 中 变 得 非 
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常 陡峭 ， 对 应 于 一 个 跳 变 的 阶梯 函数 ， 使 得 每 一 个 来 自 类 别 k 的 训练 数据 都 被 赋予 一 个 后 验 概 
率 p(Ck | z) = 1。 此 外 ， 通常 这 些 解 之 间 存 在 连续 性 ， 因 为 任何 切 分 超 平 面 都 会 造成 训练 数据 点 
中 同样 的 后 验 概率 ， 正 如 后 面 在 图 10.13 中 将 会 看 到 的 那样 。 最 大 似 然 方法 无 法 区 分 某 个 解 优 于 
另 一 个 解 ， 并且 在 实际 应 用 中 哪个 解 被 找到 将 会 依赖 于 优化 算法 的 选择 和 参数 的 初始 化 。 注 
意 ， 即 使 与 模型 的 参数 相 比 数据 点 的 数量 很 多 ， 只 要 数据 是 线性 可 分 的 ， 这 个 问题 就 会 出 现 。 
通过 引入 先 验 概率 ， 然 后 寻找 ww 的 MAP 解 ， 或 者 等 价 地 ， 通 过 给 误差 函数 增加 一 个 正则 化 项 ， 
这 种 奇异 性 就 可 以 被 避免 。 


4.3.3 从 代 重 加 权 最 小 平方 


在 第 3 章 讨论 线性 回归 模型 的 时 候 ， 在 高 斯 噪声 模型 的 假设 的 情况 下 ， 最 大 似 然 解 有 解 
析 解 。 这 是 因为 对 数 似 然 函 数 为 参数 向 量 凤 的 二 次 函数 。 对 于 logistic 回 归来 说 ， 不 再 有 解析 
解 了 ， 因 为 logistic sigmoid 函 数 是 一 个 非 线性 函数 。 然 而 ， 函 数 形 式 不 是 二 次 函数 并 不 是 本 
质 的 原因 。 精 确 地 说 ， 正 如 我 们 将 要 看 到 的 那样 ,误差 函数 是 凸 函 数 ， 因 此 有 一 个 唯一 
的 最 小 值 。 此 外 ， 误 差 函 数 可 以 通过 一 种 高 效 的 迭代 方法 求 出 最 小 值 ， 这 种 迭代 方法 基 
于 Newton-Raphson 从 代 最 优化 框架 ， 使 用 了 对 数 似 然 函 数 的 局 部 二 次 近似 。 为 了 最 小 化 函 
数 互 (wm)，Newton-Raphson 对 权 值 的 更 新 的 形式 为 (Fletcher 1987; Bishop and Nabney, 2008 ) 





新 一 有 旧 一 五 -TIVPE() (4.92) 


其 中 互 是 一 个 Hessian 和 矩阵 ， 它 的 元 素 由 王 (w) 关 于 忆 的 二 阶 导数 组 成 。 
首先 ， 让 我 们 把 Newton-Raphson 方 法 应 用 到 现行 回归 模型 (3.3) 上 ， 误 差 函 数 为 平方 和 误 
差 函 数 (3.12) 。 这 个 误差 函数 的 梯度 和 Hessian 和 矩阵 为 


N 
VE(wW)= >》 (wo, -tn)pn = EB! Bw— Bit (4.93) 
n=1 
N 
H=VVE(w)= 》 加 和 = B® (4.94) 
n=1 


其 中 再 是 N x M 设 计 和 矩阵 ， 第 m 行 为 号 。 于 是 ，Newton-Raphson 更 新 的 形式 为 


新 一 月 (BTE)-!{BT Bwt 一 再 7t} 
(4.95) 
= (BiB) Et 
我 们 看 到 这 是 标准 的 最 小 平方 解 。 注意， 这 种 情况 下 误差 函数 是 二 次 的 ， 
此 Newton-Raphson 公 式 用 1 步 就 给 出 了 精确 解 。 
现在 让 我 们 把 Newton-Raphson 更 新 应 用 到 logistic 回 归 模 型 的 交叉 佼 误差 函数 (4.90) 上 。 根 
据 公 式 (4.91) ,我 们 看 到 这 个 误差 函数 的 梯度 和 Hessian 和 矩阵 为 


N 
VE(w) = 》 (加 一 如)g = Br"(y—t) (4.90) 
n=1 
N 
H=VVE(w) = > yn(l— yb,p. = B! RE (4.97) 
n=1 


推导 过 程 中 我 们 使 用 了 公式 (4.88) 。 并 且 ， 我 们 引入 了 一 个 N x 和 N 的 对 角 和 矩阵 肪 ， 元 素 为 
Rnn = yn(l yn) (4.98) 

我 们 看 到 Hessian 窜 阵 不 再 是 常量 ， 而 是 通过 权 和 矩阵 RR 依赖 于 w。 这 对 应 于 误差 函数 不 是 二 次 阴 

数 的 事实 。 使 用 性 质 0 < yn < 1 (这 个 性 质 来 自 于 logistic sigmoid 函 数 形 式 ) ， 我 们 看 到 对 于 任 
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意向 量 u 都 有 wu Hu > 0， 因 此 Hessian 矩 阵 五 是 正定 的 。 因 此 误差 函数 是 的 一 个 凸 函数 ， 从 
而 有 唯一 的 最 小 值 。 
这 样 ，logistic 回 归 模型 的 Newton-Raphson 更 新 公式 就 变 成 了 
新 一 刀 月 (ETRE)- ET (yt) 

= (ETRE) !{BIREwH — BT(y—t)} (4.99) 

= (BT RE) 1!E’ Rz 
其 中 z 是 一 个 NN 维 向 量 ， 元 素 为 

z= BwH— Ri(y—t) (4.100) 

我 们 看 到 更 新 公式 (4.99) 的 形式 为 一 组 加 权 最 小 平方 问题 的 规范 方程 。 由 于 权 和 矩阵 RB 不 是 常 
量 ， 而 是 依赖 于 参数 向 量 w， 因 此 我 们 必须 迭代 地 应 用 规范 方程 ， 每 次 使 用 新 的 权 向 量 w 计 
算 一 个 修正 的 权 和 矩阵 及 。 由 于 这 个 原因 ， 这 个 算法 被 称 为 迭代 重 加 权 最 小 平方 (iterative 
reweighted least squares) ， 或 者 简称 为 IRLS (Rubin, 1983) 。 与 加 权 的 最 小 平方 问题 一 样 ， 对 
角 和 矩阵 及 可 以 看 成 方差 ， 因 为 logistic 回 归 模 型 的 t 的 均值 和 方差 为 


Elt| = o(2)=Y (4.101) 

















varlt] = Elt2] 一下 由 = o(2) 一 clz)2 =y(1—y) (4.102) 
其 中 我 们 使 用 了 t e {0,1} 时 刀 = t 的 性 质 。 事 实 上 ， 我 们 可 以 把 IRLS 看 成 变量 空间 a = w 9 的 
线性 问题 的 解 。 这 样 ，z 的 第 n 个 元 素 纪 就 可 以 简单 地 看 成 这 个 空间 中 的 有 效 的 目标 值 。z 可 以 
通过 对 当前 操作 点 w 昌 附近 的 logistic sigmoid 函 数 的 局 部 线性 近似 的 方式 得 到 。 

















da 
an(W) > an(ao 昌 ) 十 -一 (tn — Yn) 
Yn | (4.103) 
yn— tn 
= piawll 一 = 
yn(1 = yn) 


4.3.4 多 类 logistic 回 归 


在 我 们 对 于 多 分 类 的 生成 式 模型 的 讨论 中 ,我 们 已 经 看 到 对 于 一 大 类 概率 分 布 来 说 ， 后 验 概 
率 由 特征 变量 的 线性 函数 的 softmax 变 换 给 出 ， 即 


exp(ax) 


da 4.104 
5 exp(an) eo 


p(Cx | $B) = yr(9) = 

其 中 ,， 激活 "ok 为 
ax = wip (4.105) 
那里 ， 我 们 使 用 了 最 大 似 然 方法 分 别 估计 类 条 件 概 率 密度 和 类 先 验 概率 ， 然 后 使 用 贝 叶 斯 定理 
找到 对 应 的 后 验 概率 ， 因 此 隐 式 地 确定 了 参数 {wk}。 这 里 ， 我 们 考虑 使 用 最 大 似 然 方法 直接 确 


定 这 个 模型 中 的 参数 {wx}。 为 了 完成 这 一 点 ， 我 们 需要 求 出 yx 关于 所 有 激活 Qj; 的 导数 。 这 些 导 
数 为 
2 = yk(Te; — Yj) (4.100) 
| 
其 中 Ij 为 单位 矩阵 的 元 素 。 


接 下 来 我 们 写 出 似 然 函数 。 最 容易 的 方法 是 ， 使 用 1-of 开 表达 方式 。 这 种 表达 方式 中 ， 属 
于 类 别 Cx 的 特征 向 量 居 的 目标 向 量 刀 是 一 个 二 元 向 量 ， 这 个 向 量 的 第 /个 元 素 等 于 1， 其 余 元 素 
都 等 于 0。 从 而 ， 似 然 函 数 为 




















NK NK 
p(T lw,..., wr)= |[ Trt.)™ = [TE Ivy (4.107) 
n=1 k=1 n=1 k=1 
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其 中 yn = yr(8n)， 了 是 目标 变量 的 一 个 N x 五 的 矩阵 ， 元 素 为 如 kg。 取 负 对 数 ， 可 得 


NK 
E(wi,..., WK) = -Inp(T | wi,..., wk) = 一 >》， tk ln yy (4.108) 
=1 k=1 


它 被 称 为 多 分 类 问题 的 交叉 炉 (cross-entropy) 误差 函数 。 
我 们 现在 取 误 差 函 数 关于 参数 向 量 w; 的 梯度 。 使 用 公式 (4.106) 给 出 的 softmax 冰 数 的 导数 
的 结果 ， 我 们 有 
Vb (bw > (二 二 区 7 (4.109) 
n=1 
其 中 我 们 使 用 了 2; tw = 1。 我 们 又 一 次 看 到 了 梯度 的 这 种 函数 形式 ， 即 误差 (ywj 一 tnj) 与 基 浮 
数 @j, 的 乘积 。 这 种 梯度 形式 在 线性 模型 的 平方 和 误差 函数 以 及 logistic 回 归 模 型 的 误差 函数 中 都 
出 现 过 。 和 之 前 一 样 ， 我 们 可 以 将 这 个 公式 用 于 顺序 算法 。 这 种 顺序 算法 中 每 次 只 出 现 一 个 模 
式 ， 每 个 权 向 量 都 使 用 公式 (3.22) 更 新 。 

我 们 已 经 看 到 ， 对 于 数据 点 %， 线 性 回归 模型 的 对 数 似 然 函数 关于 参数 向 量 w 的 导数 的 形 
式 为 "误差 yn -如 乘 以 特征 向 量 加 。 类 似 地 ， 对 于 logistic sigmoid 激 活 函 数 与 交叉 粹 误差 函数 
(4.90) 的 组 合 ， 以 及 多 类 交叉 精 误 差 数 (4.108) 的 softmax 激 活 函数 ， 我 们 又 一 次 得 到 了 相 
同 的 函数 形式 。 这 是 一 个 更 一 般 的 结果 的 特例 ， 正 如 我 们 将 在 43.6 节 中 将 看 到 的 那样 。 

为 了 找到 一 个 批 处 理 算法 ， 我 们 再 次 使 用 Newton-Raphson 更 新 来 获得 多 类 问题 的 对 应 
的 IRLS 算 法 。 这 需要 求 出 由 大 小 为 M x M 的 块 组 成 的 Hessian 逢 了 泗 ， 其 中 块 i, j 为 





N 
Vi Vw E(wWi,...) WK) = > Yng (Tey — Ynj) bn pL (4.110) 
n=1 
与 二 分 类 问题 一 样 ， 多 类 logistic 回 归 模 型 的 Hessian 知 阵 是 正定 的 ， 因 此 误差 函数 有 了 唯一 的 最 小 
值 。 多 类 问题 的 IRLS 的 细节 可 以 参考 Bishop and Nabney (2008) 。 


4.3.5 “probit 回 归 


我 们 已 经 看 到 ， 对 于 由 指数 族 分 布 描述 的 一 大 类 的 类 条 件 概率 分 布 ， 最 终 求 出 的 后 验 类 概率 
为 作用 在 特征 变量 的 线性 函数 上 的 logistic (或 者 softmax) 变换 。 然 而 ， 不 是 所 有 的 类 条 件 概率 
密度 都 有 这 样 简单 的 后 验 概率 函数 形式 〈 例 如 ， 如 果 类 条 件 概率 密度 由 高 斯 混合 模型 建 模 ) 。 
这 表明 研究 其 他 类 型 的 判别 式 概率 模型 可 能 会 很 有 价值 。 但 是 本 章 中 ， 我 们 将 会 回 到 二 分 类 的 
情形 ， 再 次 使 用 一 般 的 线性 模型 的 框架 ， 即 


p(t=1|a)= f(a) (4.111) 





其 中 a = w ?8， 且 站 (`) 为 激活 函数 。 
我 们 选择 其 他 的 链接 函数 的 原因 可 以 通过 噪声 阔 值 模型 看 出 来 ， 如 下 所 述 。 对 于 每 个 输 
入 和 加， 我 们 计算 an = wz ， 然 后 按照 下 面 的 方式 设置 目标 值 





tn = 1, 如 果 an >0 (4.112) 
tn 二 0， 其 他 情况 

如 果 9 的 值 从 概率 密度 p(9) 中 抽取 ， 那 么 对 应 的 激活 函数 由 累积 分 布 函 数 给 出 
A 1 0) dg (4119) 


如 图 4.13 所 示 。 
作为 一 个 具体 的 例子 ， 假 设 概率 密度 p(O) 是 零 均值 、 单 位 方差 的 高 斯 概率 密度 。 对 应 的 累积 
分 布 函数 为 . 
= 人 Nel0Dag (11 
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图 4.13: 概率 分 布 p(0) 的 图 形 表示 ， 这 个 概率 分 布 用 蓝 色 曲线 标记 出 。 这 个 例子 中 ， 这 个 分 布 由 两 个 高 斯 
分 布 混合 而 成 。 同 时 给 出 的 还 有 它 的 累积 密度 函数 jc) ， 用 红色 曲线 表示 。 注 意 ， 蓝 色 曲 线 上 的 任意 一 
点 ， 例 如 垂直 绿色 直线 标记 出 的 点 ， 对 应 于 红色 曲线 在 相同 一 点 处 的 斜率 。 相 反 ， 红 色 曲 线 在 这 点 上 的 
值 对 应 于 蓝 色 曲线 下 方 的 绿色 阴影 的 面积 。 在 随机 阔 值 模型 中 ， 如 果 a = w7 9 的 值 超过 某 个 阔 值 ， 则 类 
别 标 签 的 取 值 为 上 = 1， 否 则 它 的 取 值 为 1 = 0。 这 等 价 于 由 累积 密度 函数 (a) 给 出 的 激活 函数 。 








这 被 称 为 逆 probit (inverse probit) 水 数 。 它 的 形状 为 sigmoid 形 ， 并 且 在 图 4.9 中 与 logistic 
sigmoid 函 数 进行 了 对 比 。 注 意 ， 使 用 更 一 般 的 高 斯 分 布 不 会 改变 模型 ， 因 为 这 样 做 等 价 于 对 线 
性 系数 ww 的 重新 缩放 。 许 多 用 于 计算 这 个 函数 的 数值 计算 包 都 与 下 面 的 这 个 函数 紧密 相关 


erf(a) = 人 sp 的 d0 (4.115) 
0 
它 被 称 为 erf 通 数 或 者 被 称 为 error 函 数 〈 不 要 与 机 器 学 习 模 型 中 的 误差 函数 相 混淆 ) 。 它 与 
逆 probit 函 数 的 关系 为 
FB(a) = { af (三 )) (4.110) 


基于 probit 激 活 函 数 的 一 般 的 线性 模型 被 称 为 probit 回 归 。 

我 们 可 以 使 用 最 大 似 然 法 来 确定 模型 的 参数 ， 这 是 之 前 讨论 的 思想 的 一 个 直接 推广 。 在 实际 
应 用 中 ， 使 用 probit 回 归 得 到 的 结果 倾向 于 与 logistic 回 归 得 到 的 结果 类 似 。 但 是 ， 当 我 们 在 4.5 节 
讨论 logistic 回 归 的 贝 叶 斯 观点 时 ， 我 们 会 找到 probit 模 型 的 另 一 个 应 用 。 

在 实际 应 用 中 经 常 出 现 的 一 个 问题 是 离 群 点 ， 它 可 能 由 输入 向 量 z 的 测量 误差 产生 ， 或 者 由 
目标 值 的 错误 标记 产生 。 由 于 这 些 点 可 以 位 于 错误 的 一 侧 中 距离 理想 决策 边界 相当 远 的 位 置 
上 ， 因 此 他 们 会 严重 地 干扰 分 类 器 。 注 意 ， 在 这 一 点 上 ，logistic 回 归 模 型 与 probit 回 归 模 型 的 表 
现 不 同 ， 因 为 对 于 z 一 co，logistic sigmoid 函 数 像 exp(-z) 那 样 渐进 地 衰减 ， 而 probit 激 活 函 数 
像 exp(-z2) 那 样 衰减 ， 因 此 probit 模 型 对 于 离 群 点 会 更 加 敏感 。 

然而 ，logistic 模 型 和 probit 模 型 都 假设 数据 点 被 正确 标记 了 。 错 误 标 记 的 影响 可 以 很 容易 
地 合并 到 概率 模型 中 。 我 们 引入 一 个 概率 ec， 它 是 目标 值 ! 被 翻转 到 错误 值 的 概率 (Opper and 
Winther 2000a) 。 这 时 ， 数 据点 z 的 目标 值 的 分 布 为 


p(t| 2)= (1 -O02)+e(l — oo(2)) 
= e+ (1— 2e)0(z) 


其 中 o(z) 是 输入 向 量 z 的 激活 函数 。 这 里 ，e 可 以 事先 设 定 ， 也 可 以 被 当成 超 参数 ， 然 后 从 数据 
中 推断 它 的 值 。 





(4.117) 


4.3.6 标准 链接 函数 
对 于 高 斯 噪声 分 布 的 线性 回归 模型 ,误差 函数 ， 对 应 于 负 对 数 似 然 函 数 ， 由 公式 (3.12) 
给 出 。 如 果 我 们 对 数据 点 n 对 误差 函数 的 贡献 关于 参数 向 量 w 求 导数 ， 那 么 导数 的 形式 为 “ 误 
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差 ”yn 一 与 特征 向 量 @; 的 乘积 ， 其 中 yn = 7 。 类 似 地 ， 对 于 logistic sigmoid 激 活 函 数 与 交 
叉 业 误 差 函 数 (4.90) 的 组 合 ， 以 及 多 类 交叉 炉 误 差 函数 (4.108) 的 softmax 激 活 函 数 ， 我 们 再 
次 得 到 了 同样 的 简单 形式 。 现 在 我 们 证 明 ， 如 果 假 设 目标 变量 的 条 件 分 布 来 自 于 指数 族 分 布 ， 
对 应 的 激活 函数 选 为 标准 链接 函数 〈canonical link function) ， 那 么 这 个 结果 是 一 个 一 般 的 结 
果 。 
我 们 再 次 使 用 指数 族 分 布 的 限制 形式 (4.84) 。 注 意 ， 这 里 我 们 把 指数 族 分 布 的 假设 应 用 于 
目标 变量 上 ， 而 不 是 4.2.4 节 中 应 用 于 输入 向 量 z。 于 是 ， 我 们 考虑 目标 变量 的 条 件 分 布 


ptl9a= 卫 (somep 人 | (118) 


使 用 与 推导 结果 (2.226) 时 相同 的 过 程 ， 我 们 看 到 t 的 条 件 均 值 ( 记 作 y) 为 














d 
y= Elt|n]= a ln g(n) (4.119) 


因此 y 和 7 一 定 相 关 ， 我 们 把 这 个 关系 记 作 7 = yw(y)。 
按 照 Nelder and Wedderburn (1972) 的 方法 ， 我 们 将 一 般 线 性 模型 (generalised linear 
model) 定义 为 这 样 的 模型 : y 是 输入 变量 (或 者 特征 变量 ) 的 线性 组 合 的 非 线性 函数 ， 即 


y= f(w'9) we 
其 中 f(-) 在 机 器 学 习 的 文献 中 被 称 为 激活 函数 (activation function) ， 广 !() 在 统计 学 中 被 称 为 


链接 函数 (link function) 。 
现在 考虑 这 个 模型 的 对 数 似 然 函 数 。 它 是 7 的 一 个 函数 ， 形 式 为 


N 
{ing0m) + 2 | + 常数 (121) 


n=1] 


N 
Inp(t | n,s) = >》_ Inp(tn | 7,s) = 
n=1 





其 中 我 们 假定 所 有 的 观测 有 一 个 相同 的 缩放 参数 〈 它 对 应 着 例如 服从 高 斯 分 布 的 噪声 的 方 
差 ) ， 因 此 s 与 rn 无 关 。 对 数 似 然 函 数 关于 模型 参数 忆 的 导数 为 


fd tn, | dr dyn 
Vow lInp(t | 1， 3) = > dn ln g(7n) dy da Van 
nN Nn nN 


5 (4.122) 
1 
= {tn} vn)f (an) bn 














其 中 om = w79,,， 并 且 我 们 使 用 了 yn = f(an) 以 及 公式 《4.119) 给 出 的 Elt | 9 的 结果 。 我 们 现 
在 看 到 ， 如 果 我 们 为 链接 函数 广 " (9) 选 成 下 面 的 形式 ， 那 么 表达 式 会 得 到 极 大 的 简化 。 


f° 1(y) = wy) (4.123) 
上 式 表 明 f(y(y)) = y， 因 此 (yw)w(y) = 1。 并 且 ， 由 于 a = 广 !()， 我 们 有 a = 消 ， 
此 户 (ww(y) = 1。 在 这 种 情况 下 ,误差 函数 的 梯度 可 以 化 简 为 


N 
VE(w) = Df ~ th} (41.129) 
n=1 


对 于 高 斯 分 布 ，s = 86， 而 对 于 logistic 模 型 ，s = 1。 
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44 拉 普 拉 斯 近似 


在 4.5 节 ， 我 们 会 讨论 logistic 回 归 的 贝 叶 斯 观点 。 正 如 我 们 将 看 到 的 那样 ， 这 比 3.3 节 和 3.5 节 
讨论 的 线性 回归 模型 的 贝 叶 斯 观点 更 加 复杂 。 特 别 地 ， 我 们 不 能 够 精确 地 关于 参数 向 量 z 求 积 
分 ， 因 为 后 验 概率 分 布 不 再 是 高 斯 分 布 。 因 此 ， 有 必要 介绍 某 种 形式 的 近似 。 稍 后 在 本 书 中 ， 
我 们 会 介绍 一 系列 基于 分 析 估 计 和 数值 采样 的 技术 。 

这 里 我 们 介绍 一 个 简单 的 但 是 广泛 使 用 的 框架 ， 被 称 为 拉 普 拉 斯 近似 。 它 的 目标 是 找到 定义 
在 一 组 连续 变量 上 的 概率 密度 的 高 斯 近似 。 首 先 考虑 单一 连续 变量 z 的 情形 ， 假 设 分 布 p(z) 的 定 





p(z) = (2) (4.125) 
其 中 2 = [f(z) dz 是 归 一 化 系数 。 我 们 假定 2 的 值 是 未 知 的。 在 拉 普 拉 斯 方法 中 ， 目 标 是 寻找 
一 个 高 斯 近似 a(z)， 它 的 中 心 位 于 p(2) 的 众 数 的 位 置 。 第 一 步 是 寻找 p(z) 的 众 数 ， 即 寻找 一 个 
点 0 使 得 p'(z0) = 0， 或 者 等 价 地 





一 0 (4.120) 
高 斯 分 布 有 一 个 性 质 ， 即 它 的 对 数 是 变量 的 二 次 函数 。 于 是 我 们 考虑 ln f(z) 以 众 数 zo 为 中 心 
的 泰勒 展开 ， 即 





dz 


ln f(z) ln jzo) 一 ;A 一 20) (4.127) 
其 中 
d2 
A= -32 ln f(z) - (4.128) 





注意 ， 泰 勒 展开 式 中 的 一 阶 项 没有 出 现 ， 因 为 是 概率 分 布 的 局 部 最 大 值 。 两 侧 同时 取 指 数 ， 
我 们 有 


f(z) ~ 1eoep1-3c- wo)| (4.129) 
这 样 ， 使 用 归 一 化 的 高 斯 分 布 的 标准 形式 ， 我 们 就 可 以 得 到 归 一 化 的 概率 分 布 9(z)， 即 
q(z) = (去 ) se 人 2- (4.130) 


图 4.14 给 出 了 拉 普 拉 斯 近似 的 说 明 。 注 意 ， 高 斯 近似 只 在 精度 4 > 0 时 有 良好 的 定义 ， 换 名 话 
膏 ， 驻 点 z0 一 定 是 一 个 局 部 最 大 值 ， 使 得 f(z) 在 驻 点 0 处 的 二 阶 导数 为 负 。 

我 们 可 以 将 拉 普 拉 斯 方法 推广 ， 去 近似 定义 在 M 维 空间 z 上 的 概率 分 布 p(z) = :名 。 在 驻 
点 zo 处 ,梯度 Vf(z) 将 会 消失 。 在 驻 点 处 展开 ,我们 有 





ln f(z) ~ ln f(z0) 一 5 — z0) 4(z — z0) (4.131) 
其 中 M x M 的 Hessian 和 矩阵 4 的 定义 为 
A=—VYInf(z)|s_z, (4.132) 
其 中 Vv 为 梯度 算 子 。 两 边 同时 取 指 数 ， 我 们 有 
fF(2) ~ f(z0) esp (ie = 0) } (4.133) 


分 布 9(z) 正 比 于 f(z)， 归 一 化 系数 可 以 通过 观察 归 一 化 的 多 元 高 斯 分 布 的 标准 形式 (2.43) 得 
到 。 因 此 





q(z) = op{ ;(z z0) 4(z 一 0) =N(z|zo0,A-!) (4.134) 
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图 414: 应 用 于 概率 分 布 p(z) x exp( 一 z?2/2)o(20z 十 名 的 拉 普 拉 斯 近似 的 例子 ， 其 中 o(z) 是 logistic 
sigmoid 冰 数 ， 定 义 为 c(z) = (1 十 e-*)-!。 左 图 给 出 了 归 一 化 的 概率 分 布 p(z)， 用 黄色 表示 。 同 时 给 出 了 
以 p(z) 的 众 数 zo 为 中 心 的 拉 普 拉 斯 近似 ， 用 红色 表示 。 右 图 给 出 了 对 应 的 曲线 的 负 对 数 。 


其 中 |4| 是 4 的 行列 式 。 这 个 高 斯 分 布 有 良好 定义 的 前 提 是 ， 精 度 矩 阵 A 是 正定 的 ， 这 表明 驻 
点 z0 一 定 是 一 个 局 部 最 大 值 ， 而 不 是 一 个 最 小 值 或 者 鞍点 。 

为 了 应 用 拉 普 拉 斯 近似 ， 我 们 首先 需要 寻找 众 数 zo， 然 后 计算 在 那个 众 数 位 置 上 
的 Hessian 算 阵 。 在 实际 应 用 当中 ， 众 数 通常 可 以 通过 运行 某 种 形式 的 数值 最 优化 算法 得 到 
(Bishop and Nabney, 2008) 。 许 多 在 实际 应 用 中 遇 到 的 概率 分 布 都 是 多 峰 的 ， 因 此 根据 考虑 的 
峰值 〈 众 数 ) 的 不 同 ， 会 有 不 同 的 拉 普 拉 斯 近似 。 注 意 ， 在 应 用 拉 普 拉 斯 方法 时 ， 真 实 概率 分 
布 的 归 一 化 常数 2 不 必 事 先知 道 。 根 据 中 心 极 限定 理 ， 我 们 可 以 预见 模型 的 后 验 概率 会 随 着 观 
测 数据 点 的 增多 而 越 来 越 近似 于 高 斯 分 布 ， 因 此 我 们 可 以 预见 在 数据 点 相对 较 多 的 情况 下 ， 拉 
普 拉 斯 近似 会 更 有 用 。 

拉 普 拉 斯 近似 的 一 个 主要 缺点 是 ， 由 于 它 是 以 高 斯 分 布 为 基础 的 ， 因 此 它 只 能 直接 应 用 于 实 
值 变量 。 在 其 他 情况 下 ， 可 以 将 拉 普 拉 斯 近似 应 用 于 变换 之 后 的 变量 上 。 例 如 ， 如 果 0 < rco， 
那么 我 们 可 以 考虑 ln 7 的 拉 普 拉 斯 近似 。 但 是 ， 拉 普 拉 斯 框架 的 最 严重 的 局 限 性 是 ， 它 完全 依赖 
于 真实 概率 分 布 在 变量 的 某 个 具体 值 位 置 上 的 性 质 ， 因 此 会 无 法 描述 一 些 重要 的 全 局 属性 。 在 
第 10 章 ， 我 们 会 考虑 其 他 的 方法 ， 这 种 方法 从 一 个 更 加 全 局 的 角度 考察 了 这 个 问题 。 











441 模型 比较 和 BIC 


除了 近似 概率 分 布 p(z)， 我 们 也 可 以 获得 对 归 一 化 常数 Z 的 一 个 近似 。 使 用 公式 〈4.133) 给 
出 的 近似 ,我 们 有 


儿 三 fra) dz 
~ f(z0) f= 人 -ic 一 z0) 4(z 一 0)\ dz (4.135) 


ee (27)Z 
= f( 0) 1A 








推导 过 程 中 ， 我 们 注意 到 了 被 积 函 数 是 高 斯 形式 的 ， 并 且 使 用 了 公式 (2.43) 给 出 的 归 一 化 高 斯 
分 布 的 标准 结果 。 我 们 可 以 使 用 公式 《4.135) 的 结果 来 获得 对 于 模型 证 据 的 一 个 近似 。 正 如 3.4 
节 讨 论 的 那样 ， 模 型 证 据 在 贝 叶 斯 模型 比较 中 起 着 相当 重要 的 作用 。 
考虑 一 个 数据 集 D 以 及 一 组 模型 {Mi;} ， 模 型 参数 为 {9;}。 对 于 每 个 模型 ， 我 们 定义 一 个 似 
然 函数 p(D | 9;, Mi)。 如 果 我 们 引入 一 个 参数 的 先 验 概率 p(0; | M;)， 那 么 我 们 感 兴趣 的 是 计算 
不 同 模型 的 模型 证 据 p(D | Mi)。 从 现在 开始 ， 为 了 简化 记号 ， 我 们 省 略 对 于 NM; 的 条 件 依赖 。 
根据 贝 叶 斯 定理 ， 模 型 证 据 为 
plD)= /pp16)p(o) dg (4.130 
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令 f(0) =p(D10)p(9) 以 及 2 = p(D)， 然 后 使 用 公式 (4135) ， 我 们 有 


M 1 
Inp(D) lnp(D | OmaP)+lInp(OMmaP)+ yy ln(27) 一 > lIn|A| (4.137) 


Occam 因 子 


其 中 GmaP 是 在 后 验 概率 分 布 众 数 位 置 的 9 的 值 ，A 是 负 对 数 后 验 概率 的 二 阶 导 数组 成 
的 Hessian 和 矩阵 。 


4 = 一 VV lInp(D | OMAP)p(OMAP) 一 一 VV ln p(OMr4P | D) (4.138) 


公式 (4.137) 表示 使 用 最 优 参数 计算 的 对 数 似 然 值 ， 而 余下 的 三 项 由 Occam 因 子 组 成 ， 它 对 
模型 的 复杂 度 进行 惩罚 。 

如 果 我 们 假设 参数 的 高 斯 先 验 分 布 比较 宽 ， 且 Hessian 矩 阵 是 满 秩 的 ， 那 么 我 们 可 以 使 用 下 
式 来 非常 粗略 地 近似 公式 (4.137) 。 


1 
lInp(D) ~ Inp(D | Omar)— aMInN (4.139) 


其 中 和 N 是 数据 点 的 总 数 ，M 是 9 中 参数 的 数量 ， 并 且 我 们 省 略 了 一 些 额 外 的 常数 。 这 被 称 为 
贝 叶 斯 信息 准则 (Bayesian Information Criterion) (BIC) ,或 者 称 为 Schwarz 准 则 (Schwarz, 
1978) 。 注 意 ， 与 公式 (1.73) 给 出 的 AIC 相 比 ， 这 个 信息 准则 对 模型 复杂 度 的 惩罚 更 严重 。 

像 AIC 和 BIC 这 样 的 复杂 度 度 量 很 容易 计算 ， 但 是 也 会 产生 有 误导 性 的 结果 。 特 别 地 ， 对 
于 Hessian 和 矩阵 满 秩 的 假设 通常 不 成 立 ， 因 为 许多 参数 都 不 是 “良好 确定 "的 。 我 们 可 以 使 用 基于 
拉 普 拉 斯 近似 的 公式 (4.137) 来 获得 对 于 模型 证 据 的 一 个 更 加 准确 的 估计 ， 正 如 我 们 在 5.7 节 在 
神经 网 络 模型 中 做 的 那样 。 


45 贝 叶 斯 logistic 回 归 


我 们 现在 考虑 logistic 回 归 的 贝 叶 斯 观点 。 对 于 logistic 回 归 ， 精 确 的 贝 叶 斯 推断 是 无 法 处 理 
的 。 特 别 地 ， 计 算 后 验 概率 分 布 需要 对 先 验 概率 分 布 于 似 然 函数 的 乘积 进行 归 一 化 ， 而 似 然 函 
数 本 身 由 一 系列 logistic sigmoid 函 数 的 乘积 组 成 ， 每 个 数据 点 都 有 一 个 logistic sigmoid 函 数 。 
对 于 预测 分 布 的 计算 类 似 地 也 是 无 法 处 理 的 。 这 里 我 们 考虑 使 用 拉 普 拉 斯 近似 来 处 理 贝 叶 
斯 logistic 回 归 的 问题 (Spiegelhalter and Lauritzen, 1990; MacKay, 1992b) 。 


4.5.1 拉 普 拉 斯 近似 


回忆 一 下 ， 在 44 节 中 ， 拉 普 拉 斯 近似 由 下 面 的 方式 获得 : 首先 寻找 后 验 概率 分 布 的 众 数 ， 
然后 调节 一 个 以 众 数 为 中 心 的 高 斯 分 布 。 这 需要 计算 对 数 后 验 概率 的 二 阶 导数 ， 这 等 价 于 寻 
找 Hessian 和 矩阵 。 

由 于 我 们 寻找 后 验 概率 分 布 的 一 个 高 斯 表示 ， 因 此 我 们 在 开始 的 时 候选 择 高 斯 先 验 是 很 自然 
的 。 我 们 把 高 斯 先 验 写成 一 般 的 形式 


p(wW) = N(w | mo, S10) (4.140) 
其 中 mo 和 So 是 固定 的 超 参数 。w 的 后 验 概率 分 布 为 
p(w | t) x p(w)p(t | w) (4.141) 


其 中 t = (1,...,tN)”。 两 侧 取 对 数 ， 然 后 代入 先 验 分 布 (4.140) ， 对 于 使 用 公式 (4.89) 的 似 
然 函数 ， 我 们 有 


1 
Inp(w |t)= -a — maz0) SU (w — mo) 
(4.142) 
a >》 {tn ln yn 二 (1 一 本)ln(1 一 Vy)} 十 常数 
也 一 | 
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其 中 yn = o(w79,)。 为 了 获得 后 验 概率 的 高 斯 近似 ， 我 们 首先 最 大 化 后 验 概率 分 布 ， 得 
到 MAP (最 大 后 验 ) 解 ww4P， 它 定义 了 高 斯 分 布 的 均值 。 这 样 协 方差 就 是 负 对 数 似 然 函数 的 
二 阶 导 数 和 矩阵 的 逆 怎 阵 ， 形 式 为 


N 
SN =—-VVInp(w|t)= S50 + > yn(l yn) pnp, (4.143) 


镶 室 入 
于 是 后 验 概率 分 布 的 高 斯 近似 的 形式 为 
q(w) N(w | WMAP, SN) (4.144) 
获得 了 后 验 概率 分 布 的 高 斯 近似 之 后 ， 剩 下 的 任务 就 是 关于 这 个 概率 分 布 求 积分 来 进行 巴 
测 。 
4.5.2 ”预测 分 布 
给 定 一 个 新 的 特征 向 量 p(z)， 类 别 C1 的 预测 分 布 可 以 通过 对 后 验 概率 p(w |t) 积 分 ， 后 验 概 
率 本 身 由 高 斯 分 布 q(w) 近 似 ， 即 
pci | 90) = /cewajpolbdos { owT BJalew) dew (4.145) 


且 类 别 C2 的 对 应 的 概率 为 p(C2 | 9,t) = 1 一 p(C1 | 9,t)。 为 了 计算 预测 分 布 ， 我们 首先 注意 到 矣 
数 o(w798) 对 于 ww 的 依赖 只 通过 它 在 Bp 上 的 投影 而 实现 。 记 a = w 了 Bp， 我 们 有 


Ss / OE (4.140) 
其 中 5() 是 狄 拉克 Delta 函 数 。 由 此 我 们 有 
| sw pjalew) dw = /ronaoan G147 
其 中 
po) = | de = wr balw) du (4.148) 


我 们 可 以 这 样 计算 p(a): 注意 到 Delta 通 数 给 ww 施加 了 一 个 线性 限制 ， 因 此 在 所 有 与 9 正 交 的 方向 
上 积分 ， 就 得 到 了 联合 概率 分 布 q(w) 的 边缘 分 布 。 由 于 gq(w) 是 高 斯 分 布 ， 因 此 根据 2.3.2 节 ， 我 
们 知道 边缘 概率 分 布 也 是 高 斯 分 布 。 我 们 可 以 通过 计算 各 阶 和 矩 然 后 交换 a 和 的 积分 顺序 的 方式 
计算 均值 和 协 方差 ， 即 














Ha = Ela| = jos da 一 jars dw = whapp (4.149) 


推导 过 程 中 我 们 使 用 了 公式 (4.144) 给 出 的 后 验 概 率 分 布 q(w) 的 结果 。 类 似 地 














=varla = /of -Pio do 
(4.150) 
= /of 的 dw = WTSno 
注意 ,0 的 分 布 的 函数 形式 与 线性 回归 模型 的 预测 分 布 (3.58) 相同 ， 其 中 噪声 方差 被 设置 为 
零 。 因 此 我 们 对 于 预测 分 布 的 近似 变 成 了 
eye / Bt / a (4.151) 
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这 个 结果 也 可 以 直接 使 用 2.3.2 节 给 出 的 高 斯 分 布 的 边缘 概率 的 结果 推导 出 来 。 

关于 a 的 积分 表示 一 个 高 斯 分 布 和 一 个 logistic sigmoid 函 数 的 卷 积 ， 不 能 够 解析 地 求 值 。 然 
而 ， 我 们 可 以 利用 公式 (4.59) 定义 的 logistic sigmoid 消 数 o(a) 和 公式 (4.114) 定义 的 逆 probit 消 
数 B(a) 的 高 度 相 似 性 来 获得 一 个 较 好 的 近似 (Spiegelhalter and Lauritzen, 1990; MacKay, 1992b; 
Barber and Bishop, 1998a) 。 为 了 获得 对 于 logistic 函 数 的 最 好 的 近似 ， 我 们 需要 重新 为 横 轴 定义 
标 度 ， 使 得 我 们 可 以 用 BB(Aa) 近 似 o(a)。 通 过 令 两 个 函数 在 原点 处 有 同样 的 斜率 ， 我们 可 以 找 
到 和 的 一 个 恰当 的 值 ， 这 个 值 为 六 = 等。 在 这 种 和 的 选择 下 ，logistic sigmoid 函 数 和 逆 probit 函 数 
的 相似 性 如 图 4.9 所 示 。 

使 用 逆 probit 函 数 的 一 个 优势 是 它 与 高 斯 的 卷 积 可 以 用 另 一 个 逆 probit 函 数 解析 地 表示 出 来 。 
特别 地 ， 我 们 可 以 证 明 





/aoowd | 2) da=® (二 人 (4.152) 


我 们 现在 将 逆 probit 函 数 的 近似 c(a) 之 B(AMa) 应 用 于 这 个 方程 的 两 人 出， 得 到 下 面 的 对 于 logistic 
sigmoid 函 数 与 高 斯 的 卷 积 近似 


/rowe | 40°) da ~ o (r(o”)n) (4.153) 
其 中 我 们 已 经 定义 了 
ke(o”) = (1+ eo) (4.154) 
把 这 个 结果 应 用 于 公式 (4.151) ， 我 们 得 到 了 近似 的 预测 分 布 ， 形 式 为 
p(C1 | gt) = o (r(o2) pa) (4.155) 


其 中 多 和 o2 分 别 由 公式 (4.149) 和 公式 (4150) 定义 ，k(o2) 由 公式 (4.154) 定义 。 

注意 ， 对 应 于 p(C1 | $,t) = 0.5 的 决策 边界 由 ua = 0 给 出 ， 这 与 使 用 w 的 MAP 值 得 到 的 结果 
相同 。 因 此 ， 如 果 决 策 准 则 是 基于 最 小 分 类 错误 率 的 ， 且 先 验 概率 相同 ， 那 么 对 w 的 积分 没有 
效果 。 然 而 ， 对 于 更 复杂 的 决策 准则 ， 这 个 积分 就 起 着 重要 的 作用 了 。 在 后 验 概率 分 布 的 高 斯 
近似 下 ， 对 logistic sigmoid 模 型 的 积分 会 在 图 10.13 中 在 变量 推断 的 问题 下 进行 说 明 。 


4.6 练习 


(41) ”(**) 给 定 一 组 数据 点 {zn}， 我 们 可 以 将 凸 沉 (convex hull) 定义 为 由 下 式 给 出 的 所 
有 点 x 组 成 的 集合 。 
z= >， Qn En (4.150) 


其 中 an > 0 且 > an = 1。 考 上 处男 一 个 点 集 {y;} 以 及 对 应 的 凸 壳 。 根 据 定 义 ， 如 果 存 在 一 个 向 
量 信 和 一 个 标量 wo 使 得 名 zx; + wo > 0 对 于 所 有 zn 都 成 立 ， 且 起 7y。 + wo < 0 对 所 有 的 y, 都 成 
立 ， 那 么 这 两 个 点 集 是 线性 可 分 的 。 证 明 ， 如 果 它 们 的 凸 壳 有 相交 的 部 分 ， 那 么 这 两 个 点 集 是 
线性 不 可 分 的 ， 相 反 如 果 它 们 是 线性 可 分 的 ， 那 么 它们 的 凸 沉 就 不 会 相交 。 
(4.2) CG*) 考虑 平方 和 误差 函数 (4.15) 的 最 小 化 问题 。 假 设 训练 集 里 的 所 有 的 目标 向 量 
满足 线性 限制 
alitn+b=0 (4.157) 


其 中 如 对 应 于 公式 (4.15) 中 的 矩阵 了 T 的 第 n 行 。 证 明 ， 由 于 这 条 限制 的 存在 ， 最 小 平方 解 
(4.17) 给 出 的 模型 预测 y(z) 的 元 素 也 满足 这 条 限制 ， 即 


aiy(z)+b=0 (4.158) 
为 了 证 明 这 一 点 ,假设 基 函 数 中 的 一 个 go0(x) = 1， 从 而 对 应 的 参数 wo 扮演 人 篇 置 的 角色 。 
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(4.3) (sx) 扩展 练习 4.2 的 结果 ， 证 明 目 标 向 量 同时 满足 多 个 线性 性 质 ， 那 么 线性 模型 的 
最 小 平方 预测 也 满足 同样 的 限制 。 

(4.4) (*) 证 明 ， 对 于 公式 (4.22) 给 出 的 关于 w 的 类 别 划 分 准则 ， 使 用 拉 格 郎 日 乘 数 法 
强制 其 满足 限制 条 件 w 7w = 1， 可 以 推导 出 w x (mz 一 m1)。 

(4.5) ”(*) 使 用 公式 (4.20) 、 (4.23) 、 (4.24) ， 证 明 Fisher 准 则 (4.25) 可 以 写成 
(4.26) 的 形式 。 

(4.6) (*) 使 用 公式 (4.27) 和 (4.28) 给 出 的 类 间 协 方差 矩阵 和 类 内 协 方差 矩阵 的 定义 ， 
以 及 公式 (4.34) 、 (4.36) ,并 且 目 标 值 按照 4.1.5 节 描述 的 方式 取得 ， 证 明 最 小 化 误差 函数 的 
表达 式 (4.33) 可 以 写成 (4.37) 的 形式 。 

(4.7) ” (*) 证 明 logistic sigmoid 函 数 (4.59) 满足 性 质 c(-aoj) = 1 一 o(a)， 它 的 反 通 数 
为 oO 人) =In{ 者 }。 

(48) (*) 使 用 公式 (4.57) 和 (458) ， 推 导 高 斯 概率 密度 的 二 分 类 生成 模型 的 后 验 概率 
结果 (4.65) ， 证 明 参 数 和 oo 的 结果 (4.66) 和 (4.67) 。 

(49) (*) 考虑 K 个 类 别 的 生成 式 分 类 模型 ， 先 验 概率 为 p(Ck) = Ai， 一 般 的 类 条 件 
概率 密度 为 p(8 | Cx)， 其 中 8 是 输入 特征 向 量 。 假 设 我 们 有 一 个 训练 数据 集 {9;,tn}， 其 
中 nn == 1,...,N, 妇 是 长 度 为 K 的 二 值 变量 ， 并 且 使 用 了 “1-of-K 的 表达 方式 ， 因 此 如 果 模 
式 n 来 自 类 别 C， 那 么 th; = Lk。 假 设 数据 点 独立 地 从 模型 中 抽取 ， 证 明 先 验 概率 的 最 大 似 然 解 
为 





J (4.159) 


Tk 


其 中 入 :是 被 分 配 到 类 别 Ck 的 数据 点 的 数量 。 
(410) (**) 考虑 练习 4.9 中 的 分 类 模型 。 现 在 假设 类 条 件 概率 密度 为 高 斯 分 布 ， 各 个 类 别 
的 协 方差 矩阵 相同 ， 即 
p(B| Ci) = NP | px, >) (4.160) 


证 明 类 别 Ck 的 高 斯 分 布 的 均值 的 最 大 似 然 解 为 


N 
1 
三 二 -= t 4.161 
ph = Wi Dd (161) 


这 表示 分 配 到 类 别 Cx 的 特征 向 量 的 均值 。 类 似 地 ， 证 明 共 享 的 协 方差 矩阵 的 最 大 似 然 解 为 


< 
SS i (4.162) 
k=1 
其 中 
1 
Sk = Ne Dtnr(Pn — Hp) (Bn — pr)T (4.163) 
n=1 


因此 等 于 与 每 个 类 别 关联 的 数据 的 协 方差 的 加 权 平 均 ， 其 中 权 系 数 为 类 别 的 先 验 概率 分 布 。 

(4.11) ”Gx*) 考虑 一 个 K 个 类 别 的 分 类 问题 ， 其 中 特征 向 量 B 有 MM 个 元 素 ， 每 个 元 素 可 以 
取 志 个 离散 的 状态 。 令 元 素 的 值 使 用 "1-of- 产 的 表示 形式 进行 表示 。 进 一 步 假设 ， 以 类 别 Cx 为 条 
件 ，% 的 M 个 元 素 是 独立 的 ， 从 而 类 条 件 概率 密度 可 以 关于 特征 向 量 的 元 素 进 行 分 解 。 证 明 ， 
在 描述 后 验 类 概率 密度 的 softmax 函 数 中 出 现 的 由 公式 (4.63) 给 出 的 ax 是 9 的 元 素 的 线性 函数 。 
注意 ， 这 是 8.2.2 节 讨论 的 朴素 贝 叶 斯 模型 的 一 个 例子 。 

(4.12) (*) 证 明 由 (4.59) 定义 的 logistic sigmoid 甬 数 的 导数 为 (4.88) 。 

(4.13) (*) 通过 使 用 logistic sigmoid 函 数 的 导数 的 结果 (4.88) ,证 明 logistic 回 归 模 型 的 误 
差 函 数 (4.90) 的 导数 为 (4.91) 。 

(4.14) (*) 证 明 对 于 一 个 线性 可 分 的 数据 集 ，logistic 回 归 模 型 的 最 大 似 然 解 可 以 通过 下 面 
的 方式 得 到 : 找到 一 个 向 量 w， 它 的 决策 边界 w 9(z) = 0 将 类 别 划分 开 ， 然 后 令 妈 的 长 度 区 域 
无 穷 。 
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(4.15) ” (**) 证 明 logistic 由 公式 (4.97) 定义 的 回归 模型 的 Hessian 和 矩阵 有 态 是 正定 的 。 这 
里 ，R 是 一 个 对 角 和 矩阵 ， 元 素 为 (1 一 yn)，yn 是 logistic 回 归 模 型 对 于 输入 向 量 z 的 输出 。 从 而 
就 证 明了 误差 函数 是 也 的 一 个 凸 函数 ， 有 唯一 的 最 小 值 。 

(416) (*) 考虑 一 个 二 分 类 问题 ， 其 中 每 个 观测 zn 属 于 两 个 类 别 之 一 ， 对 应 
于 t = 0 和 t = 1。 假 设 收集 训练 数据 的 步骤 不 完美 ， 使 得 训练 数据 有 时 会 标记 错误 。 对 于 每 
个 数据 点 zn， 我 们 没有 类 别 标 签名， 而 是 有 一 个 值 zrm， 表 示 妃 = 1 的 概率 。 给 定 一 个 概率 模 
型 p(t = 1 | 四) ， 写 下 适用 于 这 个 数据 集 的 对 数 似 然 函 数 。 

(4417)  (*) 证 明 softmax 激 活 函 数 (4.104) (其 中 中 由 公式 (4.105) 定义 ) 的 导数 为 
(4.106) 。 

(418) (*) 使 用 公式 (4.106) 给 出 的 softmax 激 活 函 数 的 导数 的 结果 ， 证 明 交 又 业 误 差 函 
数 (4.108) 的 梯度 为 (4.109) 。 

(4.19) (*) 写 出 4.3.5 节 定义 的 probit 回 归 模 型 的 对 数 似 然 函 数 的 梯度 和 对 应 的 Hessian 和 矩阵 
的 表达 式 。 这 些 是 使 用 IRLS 训 练 模型 时 需要 的 量 。 

(420) ”(**) 证 明 公 式 (4.110) 定义 的 多 类 logistic 回 归 问 题 的 Hessian 和 矩阵 是 半 正 定 的 。 注 
意 ， 这 个 问题 的 完整 的 Hessian 和 矩阵 的 大 小 为 MK x MK ， 其 中 是 参数 的 数量 ，K 是 类 别 的 数 
量 。 为 了 证 明 半 正定 性 质 ， 考 虑 乘积 u Hu， 其 中 是 任意 一 个 长 度 为 MK 的 向 量 ， 然 后 应 
用 Jensen 不 等 式 。 

(421) (*) 证 明 逆 probit 函 数 (4.114) 和 erf 函 数 (4.115) 的 关系 为 (4.116) 。 

(422) (*) 使 用 结果 (4.135) ， 推 导 拉 普 拉 斯 近似 下 的 对 数 模 型 证 据 的 表达 式 
(4.137) 。 

(423) ”(**) 本 练习 中 ， 我 们 从 公式 (4.137) 给 出 的 模型 证 据 的 拉 普 拉 斯 近似 的 结果 
开始 ， 推 导出 BIC 的 结果 (4.139) 。 证 明 ， 如 果 参 数 上 的 先 验 概率 分 布 是 高 斯 分 布 ， 形 式 
为 (09) =N(9|m,Vo)， 那 么 在 拉 普 拉 斯 近似 下 ， 模 型 证 据 的 对 数 的 形式 为 








1 1 ey 
Inp(D) ~ Inp(D | OmaP)— 5(0MAP —m) Vo (garaP 一 到 ) 一 二 也 | 再 | 十 常数 


其 中 五 是 负 对 数 似 然 函 数 mmnp(D | 9) 在 gwr4P 处 计算 的 二 阶 导数 组 成 的 矩阵 。 现 在 假设 先 验 概 率 
分 布 很 宽 ， 从 而 Vi 很 小 ， 公 式 右 侧 的 二 阶 项 可 以 忽略 。 此 外 ， 考 虑 数据 独立 同 分 布 的 情形 ， 
从 而 五 是 一 系列 项 的 求 和 式 ， 每 个 数据 点 都 有 一 项 。 证 明 对 数 模 型 证 据 可 以 近似 写成 BIC 表 达 
式 〈4.139) 的 形式 。 

(424) ”(**) 使 用 2.3.2 节 的 结果 ， 推 导 logistic 回 归 模型 关于 参数 好 的 高 斯 后 验 概率 分 布 进 
行 求 和 或 积分 的 结果 (4.151) 。 

(4.25) ”GY*) 假设 我 们 希望 通过 一 个 缩放 的 逆 probit 冰 数 B(Aa) 来 近似 公式 (4.59) 定义 
的 logistic sigmoid 画 数 c(a) ， 其 中 更 (ao) 由 公式 (4.114) 定义 。 证 明 ， 如 果 和 的 选择 使 得 两 个 函数 
在 a = 0 处 的 导数 相等 ， 那 么 六 = 入。 

(4.26) ”(**) 本 练习 中 ， 我 们 要 证 明道 probit 浮 数 与 高 斯 分 布 的 卷 积 的 结果 (4.152) 。 为 
了 完成 这 件 事 ， 证 明 左 侧 关于 /的 导数 等 于 右 侧 的 导数 ， 然 后 对 两 侧 关 于 /积分 ， 之 后 证 明 
队 分 的 常数 等 于 零 。 注 意 ， 在 对 左 侧 进行 求 导 之 前 ， 比 较 方便 的 做 法 是 首先 进行 变量 替 
换 a = jh 十 oz， 因 此 对 a 的 积分 被 蔡 换 为 对 z 的 积分 。 当 我 们 对 公式 (4.152) 的 左 侧 求 导 时 ,我 
们 就 会 得 到 对 z 的 一 个 高 斯 积分 ， 这 个 积分 可 以 解析 地 计算 出 来 。 
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5 神经 网 络 


在 第 3 章 和 第 4 章 中 ， 我 们 考虑 了 由 固定 基 函 数 的 线性 组 合 构成 的 回归 模型 和 分 类 模型 。 我 们 
看 到 ， 这 些 模型 具有 一 些 有 用 的 分 析 性 质 和 计算 性 质 ， 但 是 它们 的 实际 应 用 被 维 数 灾难 问题 限 
制 了 。 为 了 将 这 些 模型 应 用 于 大 规模 的 问题 ， 有 必要 根据 数据 调节 基 录 数 。 

支持 向 量 机 (将 在 第 7 章 讨 论 ) 是 这 样 解决 这 个 问题 的 : 首先 定义 以 训练 数据 点 为 中 心 的 基 
函数 ， 然 后 在 训练 过 程 中 选择 一 个 子 集 。 支 持 向 量 机 的 一 个 优点 是 ， 虽 然 训 练 阶段 涉及 到 非 线 
性 优化 ， 但 是 目标 函数 是 凸 函 数 ， 因 此 最 优 问题 的 解 相对 很 直接 。 最 终 模型 中 基 函 数 的 数量 通 
常 远 小 于 训练 数据 点 的 数量 ， 虽 然 通常 相对 来 说 仍然 很 大 ， 并 且 通 常 随 着 数据 规模 的 增加 而 增 
多 。 相 关 向 量 机 (将 在 7.2 节 讨论 ) 也 选择 固定 基 函 数 集 合 的 一 个 子 集 ， 通 常会 生成 一 个 相当 稀 
臣 的 模型 。 与 支持 向 量 机 不 同 ， 相 关 向 量 机 也 产生 概率 形式 的 输出 ， 虽 然 这 种 输出 的 产生 会 以 
训练 阶段 的 非 凸 优化 为 代价 。 

另 一 种 方法 是 事先 固定 基 函 数 的 数量 ,但 是 允许 基 浮 数 可 调节 。 换 句 话说 ， 就 是 使 用 参数 形 
式 的 基 函 数 ， 这 些 参数 可 以 在 训练 阶段 调节 。 在 模式 识别 中 ， 这 种 类 型 的 最 成 功 的 模型 时 前 馈 
神经 网 络 ， 也 被 称 为 多 层 感 知 器 (multilayer perceptron) ， 将 在 本 章 讨论 。 实 际 上 ,， 多 层 感知 
器 "是 一 个 相当 不 正确 的 命名 ， 因 为 模型 是 由 多 层 logistic 回 归 模 型 〈( 带 有 连续 的 非 线 性 性 质 ) 组 
成 ， 而 不 是 由 多 层 感知 器 〈 带 有 非 连 续 的 非 线性 性 质 ) 组 成 。 对 于 许多 应 用 来 说 ,与 具有 同样 
泛 化 能 力 的 支持 向 量 机 相 比 ， 最 终 的 模型 会 相当 简洁 ， 因 此 计算 的 速度 更 快 。 这 种 简洁 性 带 来 
的 代价 就 是 ， 与 相关 向 量 机 一 样 ， 构 成 了 网 络 训 练 根基 的 似 然 函 数 不 再 是 模型 参数 的 凸 函数 。 
然而 ， 在 实际 应 用 中 ， 考 察 模 型 在 训练 阶段 消耗 的 计算 资源 是 很 有 价值 的 ， 这 样 做 会 得 到 一 个 
简洁 的 模型 ， 它 可 以 快速 地 处 理 新 数据 。 

术语 神经 网 络 来 源 于 它 尝试 寻找 生物 系统 信息 处 理 的 数学 表示 (McCulloch and Pitts, 1943; 
Widrow and Hoff 1960; Rosenblatt, 1962; Rumelhart et al., 1986) 。 实 际 上 ， 这 个 模型 已 经 被 广泛 
使 用 ， 它 涵盖 了 相当 多 的 不 同 种 类 的 模型 ， 许 多 模型 过 分 夸张 地 宣称 其 具有 生物 的 可 信 性 。 然 
而 ， 从 模式 识别 的 实际 应 用 角度 来 说 ， 模 仿生 物 的 真实 性 会 带 来 相当 多 的 不 必要 的 限制 。 因 
此 ， 我们 本 章 中 的 注意 力 集中 于 作为 统计 模式 识别 的 高 效 模型 的 神经 网 络 。 特 别 地 ， 我 们 要 把 
我 们 的 注意 力 集中 于 神经 网 络 中 的 某 个 具体 的 类 别 上 ， 这 一 类 神经 网 络 已 经 被 证 明 有 相当 大 的 
实用 价值 。 这 一 类 神经 网 络 就 是 多 层 感 知 器 。 

首先 ， 我 们 考虑 神经 网 络 的 函数 形式 ， 包 括 基 函 数 的 具体 参数 ， 然 后 我 们 讨论 使 用 最 大 似 
然 框 架 确定 神经 网 络 参数 的 问题 ， 这 涉及 到 非 线 性 最 优化 问题 的 解 。 这 种 方法 需要 计算 对 
数 似 然 函数 关于 神经 网 络 参数 的 导数 ， 我 们 会 看 到 这 些 导数 可 以 使 用 误差 反 疝 传播 (error 
backpropagation) 的 方法 高 效 地 获得 。 我 们 还 会 说 明 误 差 反 向 传播 的 框架 如 何 推广 到 计算 其 他 
的 导数 ， 例 如 Jacobian 矩 阵 和 Hessian 和 矩阵 。 接 下 来 ， 我 们 讨论 神经 网 络 训练 的 正则 化 的 各 种 方 
法 ， 以 及 方法 之 间 的 关系 。 我 们 还 会 考虑 神经 网 络 模型 的 一 些 扩 展 。 特 别 地 ， 我 们 会 描述 一 
个 通用 的 框架 ， 用 来 对 条 件 概率 密度 建 模 。 这 个 框架 被 称 为 混合 密度 网 络 (mixture density 
network) 。 最 后 ， 我 们 讨论 神经 网 络 的 贝 叶 斯 观点 。 额 外 的 关于 神经 网 络 模型 的 背景 可 以 参 
考 Bishop (1995a) 。 











5.1 前 馈 神经 网 络 


回归 的 线性 模型 和 分 类 的 线性 模型 分 别 在 第 3 章 和 第 4 章 中 讨论 过 了 。 它 们 基于 固定 非 线性 基 
函数 9;(7x) 的 线性 组 合 ， 形 式 为 


M 
yz,1w)=f B oo (5.1) 
j=1 


其 中 站 (-) 在 分 类 问题 中 是 一 个 非 线 性 激活 函数 ， 在 回归 问题 中 为 恒 等 函 数 。 我 们 的 目标 是 推广 
这 个 模型 ， 使 得 基 沙 数 9;(z) 依 赖 于 参数 ， 从 而 能 够 让 这 些 参 数 以 及 系数 {wj} 能 够 在 训练 阶段 调 
节 。 当 然 ， 有 许多 种 方法 构造 参数 化 的 非 线 性 基 范 数 。 神 经 网 络 使 用 与 公式 (5.1) 形式 相同 的 
0 0 0 5 
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这 就 引出 了 基本 的 神经 网 络 ， 它 可 以 被 描述 为 一 系列 的 函数 变换 。 首 先 ， 我 们 构造 输入 变 
量 zzZD 的 M 个 线性 组 合 ， 形 式 为 


D 
Qj = > wh 十 i (5.2) 
i=1 


其 中 j = 1,.….,M， 且 上 标 (1) 表 示 对 应 的 参数 是 神经 网 络 的 第 一 " 层 ”。 我 们 把 参数 wl) 称 为 
权 (weight) ， 把 参数 wf 称 为 偏 置 (bias) ， 这 遵循 了 第 3 章 中 的 命名 方式 。oj 被 称 为 激活 
(activation) 。 每 个 激活 都 使 用 一 个 可 微 的 非 线 性 激活 函数 (activation function) h(:) 进 行 变 
换 ， 可 得 

21 一 h(a;) (5.3) 
这 些 量 对 应 于 公式 (5.1) 中 的 基 函 数 的 输出 ， 这 些 基 函 数 在 神经 网 络 中 被 称 为 隐 含 单元 
(hidden unit) 。 非 线性 函数 h(.) 通 常 被 选 为 $ 形 的 函数 ， 例 如 logistic sigmoid 函 数 或 者 双 曲 正切 
函数 。 根 据 公 式 (5.1) ， 这 些 值 再 次 线性 组 合 ， 得 到 输出 单元 激活 (output unit activation) 








M 
ak = > wh 2 十 wa (5.4) 
j=1 


其 中 k= 1,...,K， 且 K 是 输出 的 总 数量 。 这 个 变换 对 应 于 神经 网 络 的 第 二 层 ， 并 且 与 之 前 一 
样 w 人 是 偏 置 参数 。 最 后 ， 使 用 一 个 恰当 的 激活 函数 对 输出 单元 激活 进行 变换 ， 得 到 神经 网 络 
的 一 组 输出 y。 激 活 函 数 的 选择 由 数据 本 身 以 及 目标 变量 的 假定 的 分 布 确定 ， 并 且 它 的 确定 过 
程 苯 循 第 3 章 和 第 4 章 的 线性 模型 确定 激活 函数 的 过 程 。 因 此 对 于 标准 的 回归 问题 ， 激 活 函 数 
是 恒 等 函 数 ， 从 而 yx = ax。 类 似 地 ， 对 于 多 个 二 元 分 类 问题 ， 每 个 输出 单元 激活 使 用 logistic 
sigmoid 遂 数 进行 变换 ， 即 


yk = o(ak) (5.5) 
其 中 
1 


最 后 ， 对 于 多 类 问题 ， 我 们 使 用 了 公式 (4.62) 给 出 的 softmax 激 活 函 数 。 输 出 单元 激活 函数 的 
选择 在 5.2 节 中 会 详细 讨论 。 
我 们 可 以 将 各 个 阶段 结合 ， 得 到 整体 的 网 络 函数 。 对 于 sigmoid 输 出 单元 激活 函数 ， 整 体 的 


网 络 函 数 为 
M D 
we = De Dt G7 
j=1 i=1 


其 中 所 有 权 参 数 和 偏 置 参 数 被 聚集 到 一 起 ， 记 作 向 量 w。 因 此 神经 网 络 模型 可 以 简单 地 看 成 一 
个 从 输入 变量 {zi;} 到 输出 变量 {yx} 的 非 线 性 函数 ， 并 且 由 可 调节 参数 向 量 w 控 制 。 

这 个 函数 可 以 被 表示 成 图 5.1 所 示 的 网 络 图 的 形式 。 这 样 ， 计 算 公 式 (5.7) 的 过 程 可 以 看 做 
信息 通过 网 络 的 前 向 传播 〈forward propagation) 。 需 要 强调 的 是 ， 这 些 图 并 不 表示 第 8 章 将 要 
讨论 的 概率 图 模型 ， 因 为 内 部 结 点 表示 的 是 确定 的 变量 而 不 是 随机 变量 。 因 此 ， 我 们 对 于 这 两 
类 模型 采用 了 稍微 不 同 的 图 示 方 法 。 我 们 稍 后 会 看 到 如 何 给 神经 网 络 一 个 概率 的 表示 。 

正如 3.1 节 讨论 的 那样 ， 可 以 通过 定义 额外 的 输入 变量 zo 的 方式 将 公式 (5.2) 中 的 偏 置 参数 
整合 到 权 参 数 集合 中 ， 其 中 额外 的 输入 变量 zo 的 值 被 限制 为 zo = 1， 因 此 公式 (5.2) 的 形式 为 


aj = > wh (5.8) 
我 们 可 以 类 似 地 把 第 二 层 的 偏 置 整合 到 第 二 层 的 权 参 数 中 ， 从 而 整体 的 网 络 函数 为 


M D 
yr(T, WwW) = 0 全 wh 全 oj (5.9) 
j=0 i=0 
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hidden units 


YK 


outputs 








图 5.1: 对 应 于 公式 (5.7) 的 两 层 神经 网 络 的 网 络 图 。 输 入 变量 、 隐 含 变 量 、 输 出 变量 都 表示 为 结 点 ， 权 
参数 被 表示 为 结 点 之 间 的 链接 ， 其 中 偏 置 参数 被 表示 为 来 自 额 外 的 输入 变量 Yo 和 隐 伟 变量 zo 的 链接 。 箭 
头 表 示 信 息 流 在 网 络 中 进行 前 向 传播 的 方向 。 





正如 从 图 5.1 中 可 以 看 到 的 那样 ， 神 经 网 络 模 型 由 两 个 处 理 阶 段 组 成 ， 每 个 阶段 都 类 似 于 
4.1.7 节 讨论 的 感知 器 模型 ， 因 此 神经 网 络 也 被 称 为 多 层 感知 器 (multilayer perceptron) ， 或 
者 MLP。 然 而 ， 与 感知 器 模型 相 比 ， 一 个 重要 的 区 别 是 神经 网 络 在 隐 含 单元 中 使 用 连续 
的 sigmoid 非 线性 函数 ， 而 感知 器 使 用 阶梯 函数 这 一 非 线 性 函数 。 这 意味 着 神经 网 络 函 数 关于 神 
经 网 络 参 数 是 可 微 的 ， 这 个 性 质 在 神经 网 络 的 训练 过 程 中 起 着 重要 的 作用 。 

如 果 网 络 中 的 所 有 隐 含 单元 的 激活 函数 都 取 线性 函数 ， 那 么 对 于 任何 这 种 网 络 ， 我 们 总 可 以 
找到 一 个 等 价 的 无 隐 含 单元 的 网 络 。 这 是 由 于 连续 的 线性 变换 的 组 合 本 身 是 一 个 线性 变换 。 然 
而 ， 如 果 隐 含 单 元 的 数量 小 于 输入 单元 的 数量 或 者 小 于 输出 单元 的 数量 ， 那 么 网 络 能 够 产生 的 
变换 不 是 最 一 般 的 从 输入 到 输出 的 线性 变换 ， 因 为 在 隐 含 单元 出 的 维度 降低 造成 了 信息 丢失 。 
在 12.4.2 节 ， 我 们 展示 了 线性 单元 的 网 络 可 以 引出 主 成 分 分 析 。 但 是 通常 情况 下 ， 我 们 对 线性 单 
元 的 多 层 神 经 网 络 几 乎 不 感 兴趣 。 

图 5.1 给 出 的 网 络 结构 是 在 实际 中 最 常用 的 一 个 。 然 而 ， 它 很 容易 扩展 。 例 如 ， 可 以 增加 额 
外 的 处 理 层 ， 每 层 包含 一 个 由 公式 (5.4) 形式 的 加 权 线 性 组 合 ， 以 及 一 个 使 用 非 线 性 激活 函数 
进行 的 元 素 级 别 的 变换 。 注 意 ， 在 文献 中 ， 关 于 计算 这 种 网 络 的 层 数 ， 有 一 些 令 人 困惑 的 地 
方 。 因 此 图 5.1 中 的 网 络 可 能 被 描述 成 一 个 3 层 网 络 (计算 单元 的 层 数 ， 把 输入 当成 单元 ) ， 或 者 
有 时 作为 一 个 单一 隐 含 层 网 络 〈 计 算 隐 含 单 元 层 的 数量 ) 。 我 们 推荐 的 计算 方法 是 把 图 5.1 的 网 
络 称 为 两 层 网 络 ， 因 为 它 是 可 调节 权 值 的 层 数 ， 这 对 于 确定 网 络 性 质 很 重要 。 

神经 网 络 结构 的 另 一 个 扩展 是 引入 跨 层 (skip-layer) 链接 ， 每 个 跨 层 链接 都 关联 着 一 个 对 应 
的 可 调节 参数 。 例 如 ， 在 一 个 两 层 的 神经 网 络 中 ， 跨 层 链接 可 能 直接 从 输入 链接 到 输出 。 原 则 
上 ， 有 着 sigmoid 隐 含 单 元 的 网 络 总 能 够 模拟 跨 层 链接 〈 对 于 有 界 输入 值 ) ， 模 拟 的 方法 是 使 用 
足够 小 的 第 一 层 权 值 ， 从 而 使 得 隐 含 单元 几乎 是 线性 的 ， 然 后 将 隐 含 单元 到 输出 的 权 值 设 置 为 
足够 大 来 进行 补偿 。 然 而 在 实际 应 用 中 ， 显 示 地 包含 跨 层 链接 可 能 会 更 方便 。 

此 外 ， 网 络 可 以 是 稀 臣 的 。 稀 蔗 的 网 络 中 ， 并 不 是 所 有 有 可 能 的 链接 方式 都 被 链接 上 。 在 
5.5.6 节 讨论 卷 积 神经 网 络 时 ， 我 们 会 看 到 稀 玻 网 络 的 一 个 例子 。 

由 于 在 网 络 图 和 它 的 数学 函数 表达 式 之 间 有 一 个 直接 的 对 应 关系 ， 因 此 我 们 可 以 通过 考虑 更 
复杂 的 网 络 图 来 构造 更 一 般 的 网 络 映 射 。 然 而 ， 这 些 网 络 必 须 被 限制 为 前 馈 (feed-forward) 结 
构 ， 换 名 话说， 网 络 中 不 能 存在 有 向 圈 ， 从 而 确保 了 输出 是 输入 的 确定 函数 。 图 5.2 用 一 个 简单 
的 例子 说 明了 这 一 点 。 这 样 的 网 络 中 每 个 〈 隐 含 或 者 输出 ) 单元 都 计算 了 一 个 下 面 的 函数 


次 二 态 5 oo (5.10) 
j 


其 中 ， 求 和 的 对 象 是 所 有 向 单元 发 送 链 接 的 单元 ( 偏 置 参 数 也 包含 在 了 求 和 式 当 中 ) 。 对 于 一 
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2 Y2 
inputs outputs 
TL1 Yl1 
Z3 


图 5.2: 具有 一 般 的 前 馈 拓 扑 结构 的 神经 网 络 的 例子 。 注 意 ， 每 个 隐 含 电源 和 输出 单元 都 与 一 个 偏 置 参数 
关联 (为 了 清晰 起 见 ， 没 有 画 出 ) 。 












































图 5.3: 多 层 感 知 器 的 能 力 说 明 ， 它 用 来 近似 四 个 不 同 的 函数 。(@) f(z) = 到， 人 7z) = sin(z)， 
(9Ff(z) = |z|，()f(z) = 瑟 (z)， 其 中 五 (x) 是 一 个 硬 阶梯 函数 。 在 每 种 情况 下 ，N = 50 个 数据 点 (用 蓝 点 
表示 ) 从 区 间 ( 一 1, 1) 中 均匀 分 布 的 x 中 进行 取样 ， 然 后 计算 出 对 应 的 f(z) 值 。 这 些 数据 点 之 后 用 来 训练 一 
个 具有 3 个 隐 含 单元 的 两 层 神 经 网 络 ， 隐 含 单元 的 激活 函数 为 tanh 函 数 ， 输 出 为 线性 输出 单元 。 生 成 的 网 
络 函 数 使 用 红色 曲线 表示 ， 三 个 隐 含 单元 的 输出 用 三 条 虚线 表示 。 


组 给 定 的 值 作用 在 神经 网 络 的 输入 上 ， 不 断 应 用 公式 (5.10) 使 得 网 络 中 所 有 单元 〈 包 括 输出 单 
元 ) 的 激活 都 能 够 被 计算 出 来 。 

前 馈 网 络 的 近似 性 质 被 广泛 研究 (Funahashi, 1989; Cybenko, 1989; Hornik et al., 
1989; Stinchecombe and White, 1989; Cotter, 1990; Ito, 1991; Hornik, 1991; Kreinovich, 1991; Ripley, 
1996) ， 这 些 性 质 被 发 现 相 当 通 用 。 因 此 神经 网 络 被 称 为 通用 近似 (universal approximator) 。 
例如 ， 一 个 带 有 线性 输出 的 两 层 网 络 可 以 在 任意 精度 下 近似 任何 输入 变量 较 少 的 连续 函数 ， 只 
要 隐 含 单元 的 数量 足够 多 。 这 个 结果 对 于 一 大 类 隐 含 单元 激活 函数 都 成 立 ， 但 是 不 包括 多 项 式 
函数 。 虽 然 这 些 定 理 是 毋庸 置疑 的 ， 但 是 关键 的 问题 是 ， 给 定 一 组 训练 数据 ， 如 何 寻 找 合 适 的 
0 
高 效 的 解法 。 

图 5.3 说 明了 两 层 网 络 建 模 一 大 类 函数 的 能 力 。 这 个 图 也 说 明了 独立 的 隐 伟 单元 是 如 何 联合 
地 近似 最 终 的 函数 的 。 图 5.4 说 明了 在 一 个 简单 的 分 类 问题 中 ， 隐 含 单 元 的 作用 。 使 用 的 数据 集 
是 附录 A 中 描述 的 人 工 生成 的 分 类 数据 。 
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图 5.4: 简单 的 二 分 类 问题 的 例子 ， 数 据 集 是 人 工 生成 的 数据 。 模 型 为 神经 网 络 ， 网 络 具 有 两 个 输入 结 
点 ， 两 个 带 有 tian 激活 函数 的 隐 含 单元 ， 以 及 带 有 logistic sigmoid 激 活 函 数 的 一 个 输出 单元 。 蓝 色 虚 线 表 
示 每 个 隐 含 单元 的 z = 0.5 的 轮廓 线 ， 红 线 表 示 网 络 的 y = 0.5 的 决策 面 。 为 了 对 比 ， 绿 线 表 示 根 据 生成 数 
据 的 概率 分 布 计算 出 的 最 有 的 决策 边界 。 





5.11 权 空 间 对 称 性 


前 馈 神经 网 络 的 一 个 性 质 是 ， 对 于 多 个 不 同 的 权 向 量 w 的 选择 ， 网 络 可 能 产生 同样 的 从 输入 
到 输出 的 映射 函数 (Chen et al., 1993) 。 这 个 性 质 在 我 们 考虑 贝 叶 斯 模型 比较 的 问题 时 会 很 有 
帮助 。 考 虑 图 5.1 中 的 两 层 网 络 ， 网 络 有 MM 个 隐 舍 结 点 ， 激 活 函 数 是 双 曲 正切 函数 ， 且 两 层 之 间 
完全 链接 。 如 果 我 们 把 作用 于 某 个 特定 的 隐 含 单元 的 所 有 的 权 值 以 及 偏 置 全 部 变 号 ， 那 么 对 于 
给 定 的 输入 模式 ， 隐 舍 单 元 的 激活 的 符号 也 会 改变 。 这 是 因为 双 曲 正切 函数 是 一 个 奇 函 数 ， 
即 tanh( 一 a) = 一 tanh(a)。 这 种 变换 可 以 通过 改变 所 有 从 这 个 隐 舍 单元 到 输出 单元 的 权 值 的 符号 
的 方式 进行 精确 补偿 。 因 此 ， 通 过 改变 特定 一 组 权 值 (以 及 偏 置 ) 的 符号 ， 网 络 表 示 的 输入 - 输 
出 映射 函数 不 会 改变 ， 因 此 我 们 已 经 找到 了 两 个 不 同 的 权 向 量 产 生 同 样 的 上 映射 函数 。 对 于 MM 个 
a 

yj 一 个 。 

类 侯 地 ， 假 设 我 们 将 与 某 个 特定 的 隐 含 结 点 相关 联 的 所 有 输入 和 输出 的 权 值 (和 偏 置 ) 都 变 
为 与 不 同 的 隐 含 结 点 相关 联 的 对 应 的 权 值 (和 偏 置 ) 。 与 之 前 一 样 ， 这 显然 使 得 网 络 的 输入 - 输 
出 映射 不 变 ， 但 是 对 应 了 一 个 不 同 的 权 向 量 。 对 于 M 个 隐 含 结 点 ， 任 何 给 定 的 权 向 量 都 属于 这 
种 交换 对 称 性 产生 的 MI 个 等 价 的 权 向 量 中 的 一 个 ， 它 对 应 于 MI 个 不 同 的 隐 含 单元 的 顺序 。 于 
是 ， 网 络 有 一 个 整体 的 权 空 间 对 称 性 因子 M!2% 。 对 于 多 于 两 层 的 网 络 ， 对 称 性 的 总 数 等 于 这 
些 因 子 的 乘积 ， 每 层 隐 含 单元 都 有 一 个 这 样 的 因子 。 

可 以 证 明 ， 对 于 权 空 间 中 的 各 种 类 型 的 对 称 性 ， 这 些 因子 都 存在 〈 除 了 由 于 权 值 的 具体 选择 
导致 的 偶然 的 对 称 性 ) 。 此 外 ， 对 称 性 的 存在 不 仅 是 双 曲 正切 函数 的 特有 性 质 ， 而 是 对 一 大 类 
的 激活 函数 都 存在 的 性 质 (Kirkov& and Kainen, 1994) 。 在 许多 情况 下 ， 权 空间 的 这 种 对 称 性 
几乎 没有 实际 用 处 ， 虽 然 在 5.7 节 我 们 会 遇 到 需要 考虑 对 称 性 的 情形 。 











52 网 络 训练 


目前 为 止 ， 我 们 把 神经 网 络 看 成 从 输入 变量 x 到 输出 变量 y 的 参数 化 非 线 性 函数 中 的 一 大 
类 。 确 定 网 络 参数 的 一 个 简单 的 方法 类 似 于 我 们 在 1.1 节 对 多 项 式 曲 线 拟 合 问 题 的 讨论 ， 因 此 我 
们 需要 最 小 化 平方 和 误差 函数 。 给 定 一 个 由 输入 向 量 {znj(n = 1,.…., 入 ) 组 成 的 训练 集 ， 以 及 一 
个 对 应 的 目标 向 量 恕 组 成 的 集合 ， 我 们 要 最 小 化 误差 函数 


1 N 
E(w) = 52 yznw) — tal G.1 
多 三 | 
然而 ， 通 过 给 网 络 的 输出 提供 一 个 概率 形式 的 表示 ， 我 们 可 以 获得 对 于 神经 网 络 训练 的 一 个 
更 加 一 般 的 观点 。 在 1.5.4 节 ， 我 们 已 经 看 到 了 使 用 概率 进行 预测 的 很 多 好 处 。 这 里 ， 关 于 概率 
的 讨论 会 让 我 们 理解 选择 输出 单元 非 线性 函数 以 及 选择 误差 函数 的 动机 。 
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首先 ， 我 们 讨论 回归 问题 。 现 在 我 们 只 考虑 一 元 目标 变量 t 的 情形 ， 其 中 {可 以 取 任何 实数 
值 。 根 据 1.2.5 节 和 3.1 节 的 讨论 ， 我 们 假定 :服从 高 斯 分 布 ， 均 值 与 z 相 关 ， 由 神经 网 络 的 输出 确 
二 SS 即 
p(t | zu) = N(t | yr,w), 67) (5.12) 
其 中 6 是 高 斯 噪声 的 精度 (方差 的 倒数 ) 。 当 然 ， 这 种 假设 有 些 严 格 。 在 5.6 节 ， 我 们 会 看 到 如 
何 把 这 种 方法 推广 到 能 够 接受 更 一 般 的 条 件 概率 分 布 。 对 于 由 公式 (5.12) 给 出 的 条 件 分 布 ， 
将 输出 单元 激活 函数 取 成 恒 等 函数 就 足够 了 ， 因 为 这 样 的 网 络 可 以 近似 任何 从 z 到 y 的 连续 
函数 。 给 定 一 个 由 N 个 独立 同 分 布 的 观测 组 成 的 数据 集 环 = {x1,...,zN}， 以 及 对 应 的 目标 
值 t = 全， ,tw}， 我 们 可 以 构造 对 应 的 似 然 函数 








N 
p(t | X,1w,p) = [2 | zn, WwW, 6) 
n=1] 
取 人 负 对 数 ， 我 们 就 得 到 了 误差 函数 


N N 
2 > {yw ww) tn} — lng + 3 In(27) (5.13) 


n=1 


这 可 以 用 来 学 习 参 数 ww 和 6。 在 5.7 节 ， 我 们 会 讨论 神经 网 络 的 贝 叶 斯 方法 ， 而 这 里 我 们 考虑 最 
大 似 然 方 法 。 注 意 ， 在 神经 网 络 的 文献 中 ， 通 常 考虑 最 小 化 误差 沙 数 而 不 是 最 大 化 (对 数 ) 似 
然 函数 ， 因 此 这 里 我 们 遵循 这 个 惯例 。 首 先 考虑 w 的 确定 。 最 大 化 似 然 函 数 等 价 于 最 小 化 平方 
和 误差 函数 


1 N 
E(w) 一 了 > {ycn,w) — tn} G.14 
n=1 


其 中 我 们 已 经 去 掉 了 相 加 的 和 相 乘 的 常数 。 通 过 最 小 化 B(w) 的 方式 得 到 的 w 的 值 被 记 作 wmz， 
因为 它 对 应 于 最 大 化 似 然 函数 。 在 实际 应 用 中 ， 神 经 网 络 函 数 y(znw w) 的 非 线性 的 性 质 导 致 误 
差 函 数 妃 (w) 不 是 凸 函 数 ， 因 此 在 实际 应 用 中 可 能 寻找 的 是 似 然 函 数 的 局 部 最 大 值 ， 对 应 于 误差 
函数 的 局 部 最 小 值 。 这 将 在 5.2.1 节 讨论 。 

已 经 找到 了 wzr，6 的 值 可 以 通过 最 小 化 似 然 函 数 的 负 对 数 的 方式 求 得 ， 结 果 为 





本 

DMF 
注意 ,一 旦 我 们 寻找 wm 的 迭代 最 优化 过 程 完 成 ， 我 们 就 可 以 计算 这 个 值 。 如 果 我 们 有 多 个 目 
标 变量 ， 并 且 我 们 假设 给 定 z 和 刀 的 条 件 下 ， 目 标 变量 之 间 相 互 独立 ， 且 噪声 精度 均 为 6， 那么 
目标 变量 的 条 件 分 布 为 


1 N 
= 2_ {yzn, wz) -tn} (5.15) 
n=1 








p(t | zw) = Nt | yr,w), PT) (5.10) 


使 用 与 一 元 目标 变量 的 情形 相同 的 推导 过 程 ， 我们 看 到 最 大 似 然 的 权 值 由 最 小 化 平方 和 误差 函 
数 (5.11) 确定 。 于 是 噪声 的 精度 为 


N 
1 1 
n=1 








其 中 天 是 目标 变量 的 数量 。 独 立 性 的 假设 可 以 去 掉 ， 但 是 代价 是 使 得 最 优化 问题 变 得 稍微 复杂 
了 一 些 。 
回忆 一 下 ， 根 据 4.3.6 节 的 讨论 ， 我们 看 到 在 误差 函数 ( 负 对 数 似 然 函 数 ) 和 输出 单元 激活 函 
数 之 间 有 一 个 自然 的 对 应 关系 。 在 回归 问题 中 ,我们 可 以 把 神经 网 络 看 成 具有 一 个 恒 等 输出 激 
活 函 数 的 模型 ， 即 yy = ax。 对 应 的 平方 和 误差 函数 有 下 面 的 性 质 
Op 
完 - 





Yk — tx (5.18) 
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我 们 在 5.3 节 讨论 误差 反 向 传播 的 时 候 将 会 用 到 这 个 结果 。 
现在 考虑 二 分 类 的 情形 。 二 分 类 问题 中 ， 我 们 有 一 个 单一 目标 变量 上 ， 且 ! = 1 表示 类 
别 C1，t = 0 表示 类 别 C?。 遵 循 4.3.6 节 中 对 于 标准 链接 函数 的 讨论 ， 我 们 考虑 一 个 具有 单一 输出 
的 网 络 ， 它 的 激活 函数 是 logistic sigmoid 函 数 
加 1 
A 2 
从 而 0 < y(z,w) < 1。 我 们 可 以 把 y(x,w) 表 示 为 条 件 概 率 p(C1 | x)， 此 时 p(C2 
ZT) 为 1 一 y(x,w)。 如 果 给 定 了 输入 ， 那 么 目标 变量 的 条 件 概率 分 布 是 一 个 伯 努 利 分 布 ， 形 式 为 


p(t zu) = yz,w) {1 — yx,w)} (5.20) 
如 果 我 们 考虑 一 个 由 独立 的 观测 组 成 的 训练 集 ， 那 么 由 负 对 数 似 然 函 数 给 出 的 误差 函数 就 是 一 
个 交叉 炉 (cross-entropy) 误差 函数 ， 形 式 为 


N 
E(w)=— {i Inyn +t (1— tn)ln(l — yn)} (5.21) 
n=1 


其 中 yn 表示 y(xn,w)。 注 意 ， 没 有 与 噪声 精度 6 相 类 似 的 东西 ， 因 为 我 们 假定 目标 值 的 标记 都 正 
确 。 然 而 ， 模 型 很 容易 扩展 到 能 够 接受 标记 错误 的 情形 。Simard et al.(2003) 发 现 ， 对 于 分 类 
问题 ， 使 用 交叉 精 误差 国 数 而 不 是 平方 和 误差 国 数 ， 会 使 得 训练 速度 更 快 ， 同 时 提升 了 泛 化 能 
力 











如 果 我 们 有 K 个 相互 独立 的 二 元 分 类 问题 ， 那 么 我 们 可 以 使 用 具有 K 个 输出 的 神经 网 
络 ， 每 个 输出 都 有 一 个 logistic sigmoid 激 活 函 数 。 与 每 个 输出 相关 联 的 是 一 个 二 元 类 别 标 
签 义 E {0,1}， 其 中 = 1,.…., 玉 。 如 果 我 们 假定 类 别 标签 是 独立 的 ， 那 么 给 定 输入 向 量 ， 目 标 
向 量 的 条 件 概 率 分 布 为 


K 
plt | za0) = [I yr) — yr(e, 0)] (5.22) 
k=1 
取 似 然 函数 的 负 对 数 ， 可 以 得 到 下 面 的 误差 函数 


N 天 
E(w) a >， > tm ln Ynk 十 (1 ee tnk) In(1 EE ynk)} (5.23) 


n=1 k=1 


其 中 ynx 表 示 yk (Xn,w)。 与 回归 问题 一 样 ， 对 于 指定 的 输出 单元 ， 误 差 函 数 关 于 激活 的 导数 的 
形式 为 公式 (5.18) 。 

我 们 可 以 对 比 一 下 这 个 问题 的 神经 网 络 解 和 第 4 章 讨论 过 的 线性 分 类 模型 给 出 的 解 ， 从 而 发 
现 一 些 有 趣 的 事情 。 假 设 我 们 使 用 图 5.1 所 示 的 标准 的 两 层 神经 网 络 。 我 们 看 到 ， 网 络 第 一 层 的 
权 向 量 由 各 个 输出 所 共享 ， 而 在 线性 模型 中 每 个 分 类 问题 是 独立 地 解决 的 。 神 经 网 络 的 第 一 层 
可 以 被 看 做 进行 了 一 个 非 线性 的 特征 抽取 ， 而 不 同 的 输出 之 间 共 享 特征 可 以 节省 计算 量 ， 同 时 
也 提升 了 泛 化 能 

最 后 ， 我 们 考虑 标准 的 多 分 类 问题 ， 其 中 每 个 输入 被 分 到 天 个 互 斥 的 类 别 中 。 二 
元 目标 变量 tk s {0,1} 使 用 "1-of 表达 方式 来 表示 类 别 ， 从 而 网 络 的 输出 可 以 表示 
为 Mo) =D( 大 三 工 zx)， 因 此 误差 函数 为 


NK 
E(w) = 一 》 >》 tagln y(n, Ww) (5.24) 
n=1 k=1 
根据 4.3.4 节 的 讨论 ， 我 们 看 到 输出 单元 激活 函数 (对 应 于 标准 链接 函数 ) 是 下 面 的 softmax 函 数 


exp(ax(z, WwW)) 


yk (2, WwW) = en (5.25) 
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图 5.5: 误差 函数 已 (ww) 的 几何 表示 。 其 中 ， 误 差 函 数 被 表示 为 权 空间 上 的 一 个 曲面 。 点 刀 4 是 一 个 局 部 最 
小 值 ， 点 内 B 是 全 局 最 小 值 。 在 任意 点 wc 处 ， 误 差 函 数 的 局 部 梯度 由 向 量 YV 环 给 出 。 


它 满足 0 < yi < 1， 且 >》jx yx 二 1。 注意 ， 如 果 我 们 给 所 有 的 a (zx,w) 都 加 上 一 个 常数 ， 那 
么 yr (ZX,w) 是 不 变 的 ， 这 就 使 得 误差 函数 在 权 空 间 的 某 些 方向 上 是 常数 。 如 果 我 们 给 误差 函数 
加 上 一 个 恰当 的 正则 化 项 (第 5.5 节 ) ， 那 么 这 种 问题 就 可 以 避免 。 

与 之 前 一 样 ， 对 于 特定 的 输出 单元 ， 误 差 函 数 关于 激活 的 导数 的 函数 形式 为 公式 (5.18) 。 

总 而 言 之 ,根据 解决 的 问题 的 类 型 ， 关 于 输出 单元 激活 函数 和 对 应 的 误差 函数 ， 都 存在 一 个 
自然 的 选择 。 对 于 回归 问题 ， 我 们 使 用 线性 输出 和 平方 和 误差 函数 ， 对 于 (多 类 独立 的 ) 二 元 
分 类 问题 ， 我 们 使 用 logistic sigmoid 输 出 以 及 交叉 精 误 差 函 数 ， 对 于 多 类 分 类 问题 ， 我 们 使 
用 softmax 输 出 以 及 对 应 的 多 分 类 交叉 炉 错误 函数 。 对 于 涉及 到 两 类 的 分 类 问题 ， 我 们 可 以 使 用 
单一 的 logistic sigmoid 输 出 ， 也 可 以 使 用 神经 网 络 ， 这 个 神经 网 络 有 两 个 输出 ， 且 输出 激活 函数 
为 Softmax 函 数 。 


5.2.1 参数 最 优化 


我 们 下 面 考虑 寻找 能 够 使 得 选 定 的 误差 函数 E(w) 达到 景 小 值 的 权 向 量 w。 现 在 ， 考 虑 误 
差 冰 数 的 几何 表示 是 很 有 用 的 。 我 们 可 以 把 误差 函数 看 成 位 于 权 空 间 的 一 个 曲面 ， 如 图 
5.5 所 示 。 首 先 注意 到 ， 如 果 我 们 在 权 空 间 中 走 一 小 步 ， 从 w 走 到 w + bw， 那 么 误差 函数 
的 改变 为 5B ~ 6w*VE(w)， 其 中 向 量 VE(w) 在 误差 函数 增加 速度 最 大 的 方向 上 。 由 于 误 
差 忆 (w) 是 w 的 光滑 连续 函数 ， 因 此 它 的 最 小 值 出 现在 权 空 间 中 误差 函数 梯度 等 于 零 的 位 置 上 ， 
即 

VE(w)=0 (5.26) 


这 是 因为 ,如果 最 小 值 不 在 这 个 位 置 上 ， 我 们 就 可 以 沿 着 方 辐 -VB(w) 走 一 小 步 ， 进 一 步 减 小 
误差 。 梯 度 为 零 的 点 被 称 为 驻 点 ， 它 可 以 进一步 地 被 分 为 极 小 值 点 、 极 大 值 点 和 鞍点 。 

我 们 的 目标 是 寻找 一 个 向 量 w 使 得 忆 (w) 取 得 最 小 值 。 然 而 ， 误 差 函 数 通 常 与 权 值 和 偏 置 参 
数 的 关系 是 高 度 非 线 性 的 ， 因 此 权 值 空间 中 会 有 很 多 梯度 为 零 (或 者 梯度 非常 小 ) 的 点 。 实 际 
上 ,根据 5.1.1 节 的 讨论 ， 我 们 看 到 ， 对 于 任意 一 个 局 部 极 小 值 点 w， 在 权 空 间 中 都 存在 等 价 的 
其 他 极 小 值 点 。 例 如 ， 在 图 5.1 所 示 的 两 层 神 经 网 络 中 ， 有 M 个 隐 含 单元 ， 权 空间 中 的 每 个 点 都 
是 MI2M 个 等 价 点 中 的 一 个 。 

此 外 ， 通常 有 多 个 不 等 价 的 驻 点 ， 通 常会 产生 多 个 不 等 价 的 极 小 值 。 对 于 所 有 的 权 向 量 ， 误 
差 函 数 的 最 小 值 被 称 为 全 局 最 小 值 (golobal minimum) 。 任 何其 他 的 使 误差 函数 的 值 较 大 的 极 
小 值 被 称 为 局 部 极 小 值 (local minima) 。 对 于 一 个 可 以 成 功 使 用 神经 网 络 的 应 用 来 说 ， 可 能 没 
有 必要 寻找 全 局 最 小 值 (并且 通常 无 法 知道 是 否 找 到 了 全 局 最 小 值 ) ， 而 是 通过 比较 几 个 局 部 
极 小 值 就 能 够 得 到 足够 好 的 解 。 

由 于 显然 无 法 找到 方程 VB(w) = 0 的 解析 解 ， 因 此 我 们 使 用 友 代 的 数值 方法 。 连 续 非 线性 
函数 的 最 优化 问题 是 一 个 被 广泛 研究 的 问题 ， 有 相当 多 的 文献 讨论 如 何 高 效 地 解决 。 大 多 数 方 
法 涉及 到 为 权 向 量 选择 某 个 初始 值 wo， 然 后 在 权 空 间 中 进行 一 系列 移动 ， 形 式 为 


w+D = wh) 4 AwD (5.27) 
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其 中 7 表示 迭 代 次 数 。 不 同 的 算法 涉及 到 权 向 量 更 新 Aw(”) 的 不 同 选择 。 许 多 算法 使 用 梯度 信 
息 ， 因 此 就 需要 在 每 次 更 新 之 后 计算 在 新 的 权 向 量 w'"+0 处 的 AB(w) 的 值 。 为 了 理解 梯度 信息 
的 重要 性 ， 有 必要 考虑 误差 函数 基于 泰勒 展开 的 局 部 近似 。 


5.2.2 局 部 二 次 近似 


通过 讨论 误差 函数 的 局 部 二 次 近似 ， 我 们 可 以 更 深刻 地 认识 最 优化 问题 ， 以 及 各 种 解决 最 优 
化 问题 的 方法 。 


考虑 E(w) 在 权 空 间 某 点 万 处 的 泰勒 展开 
二 7 jw Ee (5.28) 


其 中 立方 项 和 更 高 阶 的 项 已 经 被 省 略 掉 了 。 这 里 ，8 被 定义 为 五 的 梯度 在 过 处 的 值 。 
b= VE|w- (5.29) 
Hessian 和 矩阵 互 = YVEB 的 元 素 为 


OF 


(H)s 本 OWiOWw; kk 


(5.30) 
根据 公式 (5.18) ,梯度 的 局 部 近似 为 

VE~b+H(w- Ww) (5.31) 
对 于 距离 点 包 充 分 近 的 点 w， 这 些 表 达 式 能 够 对 误差 函数 和 它 的 梯度 给 出 合理 的 近似 。 


考虑 一 个 特殊 情况 : 在 误差 函数 最 小 值 点 w* 附 近 的 局 部 二 次 近似 。 在 这 种 情况 下 ， 没 有 线 
性 项 ， 因 为 在 w* 处 VE = 0， 公 式 (5.28) 变 成 了 
1 


E(w) ~ E(w’)+ 可 (了 一 "并 再 (ao 一 9) (5.32) 


这 里 Hessian 和 矩阵 在 点 w* 处 计算 。 为 了 用 几何 的 形式 表示 这 个 结果 ， 考 虑 Hessian 矩 阵 的 特征 值 
方程 


Hu; = Nu (5.33) 
其 中 特征 向 量 wi 构 成 了 完备 的 单位 正 交 集合 (附录 C) ， 即 
ua = 6 (5.34) 
我 们 现在 把 (w 一 w*) 展 开 成 特征 值 的 线性 组 合 的 形式 
wo— w= » Qi (5.35) 


这 可 以 被 看 成 坐标 系 的 变换 ， 坐 标 系 的 原点 变 为 了 w* ， 坐 标 轴 旋 转 ， 与 特征 向 量 对 齐 (通过 列 
为 wi 的 正 交 和 矩阵 ) 。 附 录 C 给 出 了 更 详细 的 讨论 。 将 公式 (5.35) 代入 公式 (5.32) ， 然 后 使 用 
公式 (5.33) 和 公式 (5.34) ,误差 函数 可 以 写成 下 面 的 形式 





E(w) = E(w’*)+ 3 > Aia2 (5.30) 


和 矩阵 五 是 正定 的 (positive definite) 当 且 仅 当 
vlHv >0 对 所 有 的 v 关 0 都 成 立 (5.37) 
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图 5.6: 在 最 小 值 w* 的 邻 域 中 ， 误 差 函 数 可 以 用 二 次 函数 近似 。 这 样 ， 常 数 误 差 函 数 的 轮廓 线 为 椭圆 ， 它 
的 轴 与 Hessian 和 矩阵 的 特征 向 量 妈 给 出 ， 长 度 与 对 应 的 特征 值 X 的 平方 根 成 反比 。 








由 于 特征 向 量 {wi} 组 成 了 一 个 完备 集 ， 因 此 任意 的 向 量 v 都 可 以 写成 下 面 的 形式 
v= 5 en (5.38) 


根据 公式 (5.33) 和 公式 (5.34) ,我 们 可 以 得 到 
viH»v = 六 c2 Ni (5.39) 
因此 互 是 正定 的 ， 当 且 仅 当 它 的 所 有 的 特征 值 均 严 格 为 正 。 在 新 的 坐标 系 中 ， 基 向 量 是 特征 向 


量 {w;}， 思 为 常数 的 轮廓 线 是 以 原点 为 中 心 的 椭圆 ， 如 图 5.6 所 示 。 对 于 一 维权 空间 ， 驻 点 w* 满 
足下 面条 件 时 取得 最 小 值 





pp 
Ow? 


对 应 的 马 维 的 结论 是 ， 在 w* 人 处 的 Hessian 和 矩阵 是 正定 矩阵 。 


>0 (5.40) 


5.2.3 ”使 用 梯度 信息 


正如 我 们 将 在 5.3 节 看 到 的 那样 ， 可 以 使 用 误差 反 向 传播 的 方法 高 效 地 计算 误差 函数 的 梯 
度 。 这 个 梯度 信息 的 使 用 可 以 大 幅度 加 快 找到 极 小 值 点 的 速度 。 原 因 如 下 所 述 。 

在 公式 (5.28) 给 出 的 误差 函数 的 二 次 近似 中 ， 误 差 曲 面 由 b 和 五 确 定 ， 它 包含 了 总 
共 下 43 个 独立 的 元 素 (因为 矩阵 五 是 对 称 的) ， 其 中 玉 是 w 的 维度 ( 即 网 络 中 可 调节 参数 的 
总 数 ) 。 这 个 二 次 近似 的 极 小 值 点 的 位 置 因此 依赖 于 O(W?) 个 参数 ， 并 且 我 们 不 应 该 奢求 能 
在 收集 到 O(W?) 条 独立 的 信息 之 前 就 能 够 找到 最 小 值 。 如 果 我 们 不 使 用 梯度 信息 ， 我 们 不 得 不 
进行 O(W?) 次 函数 求 值 ， 每 次 求 值 都 需要 O(W) 个 步骤 。 因 此 ， 使 用 这 种 方法 求 最 小 值 需 要 的 
计算 复杂 度 为 O(W3)。 

现在 将 这 种 方法 与 使 用 梯度 信息 的 方法 进行 对 比 。 由 于 每 次 计算 VE 都 会 带 来 W 条 信息 ， 因 
此 我 们 可 能 预计 找到 函数 的 极 小 值 需 要 计算 O(W) 次 梯度 。 正 如 我 们 将 要 看 到 的 那样 ， 通 过 使 
用 误差 反 向 传播 算法 ， 每 个 这 样 的 计算 只 需要 O(W) 步 ， 因 此 使 用 这 种 方法 可 以 在 O(W?) 个 步 
又 内 找到 极 小 值 。 因 此 ， 使 用 梯度 信息 构成 了 训练 神经 网 络 的 实际 算法 的 基础 。 


5.2.4 梯度 下 降 最 优化 


最 简单 的 使 用 梯度 信息 的 方法 是 ， 将 公式 (5.27) 中 的 权 值 更 新 方式 选择 为 下 面 的 形式 : 
次 权 值 更 新 都 是 在 负 梯 度 方向 上 的 一 次 小 的 移动 ， 即 


wD) 一 WO) yy Ew) (5.41) 
其 中 参数 7 > 0 被 称 为 学 习 率 (learning rate) 。 在 每 次 更 新 之 后 ， 梯 度 会 使 用 新 的 权 值 向 量 重新 
计算 ,然后 这 个 过 程 重复 下 去 。 注 意 ， 误差 函数 是 关于 训练 集 定 义 的 ， 因 此 为 了 计算 VB， 每 一 
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步 都 需要 处 理 整个 数据 集 。 在 每 一 步 ， 权 值 向 量 都 会 沿 着 误差 函数 下 降 速度 最 快 的 方向 移动 ， 
因此 这 种 方法 被 称 为 梯度 下 降 法 (gradient descent) 或 者 最 陡峭 下 降 法 (steepest descent) 。 虽 
然 这 种 方法 在 直觉 上 看 比较 合理 ， 但 是 实际 上 可 以 证 明 它 是 一 个 很 差 的 算法 ， 原 因 可 以 参 
考 Bishop and Nabney (2008) 。 

对 于 批量 最 优化 方法 ， 存 在 更 高 效 的 方法 ， 例 如 共 斩 梯 度 法 (conjugate gradient) 或 者 拟 牛 
顿 法 (quasi-Newton) 。 与 简单 的 梯度 下 降 方法 相 比 ， 这 些 方法 更 鲁 棒 ， 更 快 (Gill et al., 1981; 
Fletcher 1987; Nocedal and Wright, 1999) 。 与 梯度 下 降 方法 不 同 ， 这 些 算法 具有 这 样 的 性 质 : 
误差 函数 在 每 次 迭代 时 总 是 减 小 的 ， 除 非 权 向 量 到 达 了 局 部 的 或 者 全 局 的 最 小 值 。 

为 了 找到 一 个 足够 好 的 极 小 值 ， 可 能 有 必要 多 次 运行 基于 梯度 的 算法 ， 每 次 都 使 用 一 个 不 同 
的 随机 选择 额 起 始点 ， 然 后 在 一 个 独立 的 验证 集 上 对 比 最 终 的 表现 。 

然而 ， 梯 度 下 降 法 有 一 个 在 线 的 版 本 ， 这 个 版 本 被 证 明 在 实际 应 用 中 对 于 使 用 大 规模 数据 集 
来 训练 神经 网 络 的 情形 很 有 用 (LeCun et al., 1989) 。 基 于 一 组 独立 观测 的 最 大 似 然 函数 的 误差 
函数 由 一 个 求 和 式 构 成 ， 求 和 式 的 每 一 项 都 对 应 着 一 个 数据 点 








N 
E(w) = 》 En(w) (5.42) 
n=1 
在 线 梯度 下 降 ， 也 被 称 为 顺序 梯度 下 降 (sequential gradient descent) 或 者 随机 梯度 下 降 
(stochastic gradient descent) ， 使 得 权 向 量 的 更 新 每 次 只 依赖 于 一 个 数据 点 ， 即 
wh) = wD nV Ew) (5.43) 
这 个 更 新 在 数据 集 上 循环 重复 进行 ， 并 且 既 可 以 顺序 地 处 理 数据 ， 也 可 以 随机 地 有 重复 地 选择 
数据 点 。 当 然 ， 也 有 折 中 的 方法 ， 即 每 次 更 新 依赖 于 数据 点 的 一 小 部 分 。 


与 批 处 理 相 比 ， 在 线 方法 的 一 个 优点 是 可 以 更 加 高 效 地 处 理 数据 中 的 宛 余 性 。 为 了 说 明 ， 让 
我 们 考虑 这 样 一 种 极端 的 情形 : 给 定 一 个 数据 集 ， 我 们 将 每 个 数据 点 都 复制 一 次 ， 从 而 将 数据 
集 的 规模 翻 倍 。 注 意 这 仅仅 把 误差 函数 乘 以 了 一 个 因子 2， 因 此 等 价 于 使 用 原始 的 误差 函数 。 批 
处 理 方法 必须 付出 两 倍 的 计算 量 来 计算 误差 函数 的 梯度 ， 而 在 线 方法 不 受 影响 。 在 线 梯度 下 降 
方法 的 另 一 个 性 质 是 ， 可 以 逃离 局 部 极 小 值 点 ， 因 为 整个 数据 集 的 关于 误差 函数 的 驻 点 通常 不 
会 是 每 个 数据 点 各 自 的 驻 点 。 

非 线性 最 优化 算法 ， 以 及 它们 对 于 神经 网 络 训练 的 实际 应 用 ， 在 Bishop and Nabney (2008) 
中 有 详细 的 讨论 。 


5.3 ”误差 反 向 传播 


本 节 中 ,我 们 的 目标 是 寻找 一 种 计算 前 馈 神经 网 络 的 误差 函数 思 (w) 的 梯度 的 一 种 高 效 
的 方法 。 我 们 会 看 到 ， 可 以 使 用 局 部 信息 传递 的 思想 完成 这 一 点 。 在 局 部 信息 传递 的 思 
想 中 ， 信 息 在 神经 网 络 中 交替 地 向 前 、 向 后 传播 。 这 种 方法 被 称 为 误差 反 向 传播 (error 
backpropagation) ， 有 时 简称 “ 反 传 ”(backprop) 。 

应 该 注意 的 是 ， 在 神经 网 络 计 算 的 文献 中 ， 反 向 传播 这 个 术语 用 于 指 代 许 多 不 同 的 事物 。 例 
如 ， 多 层 感知 器 结构 有 时 被 称 为 反 癌 传播 网 络 。 反 向 传播 这 个 术语 还 用 于 描述 将 梯度 下 降 法 应 
用 于 平方 和 误差 函数 的 多 层 感知 右 的 训练 过 程 。 为 了 不 让 概念 发 生 混淆 ， 和 仔细 研究 一 下 训练 过 
程 的 本 质 是 很 有 用 的 。 大 部 分 训练 算法 涉及 到 一 个 迭代 的 步 台 用 于 误差 水 数 的 最 小 化 ， 以 及 通 
过 一 系列 的 步骤 进行 的 权 值 调节 。 在 每 一 个 这 样 迭 代 过 程 中 ,我 们 可 以 区 分 这 两 个 不 同 的 阶 
段 。 在 第 一 个 阶段 ， 误 差 函 数 关 于 权 值 的 导数 必须 被 计算 出 来 。 正 如 我 们 稍 后 会 看 到 的 那样 ， 
反 向 传播 方法 的 一 个 重要 的 贡献 是 提供 了 计算 这 些 导 数 的 一 个 高 效 的 方法 。 由 于 正 是 在 这 个 阶 
段 ， 误 差 通过 网 络 进行 反 向 传播 ， 因 此 我 们 将 专门 使 用 反 向 传播 这 个 术语 来 描述 计算 导数 的 过 
程 。 在 第 二 个 阶段 ， 导 数 用 于 计算 权 值 的 调整 量 。 最 简单 的 方法 ， 也 是 最 开始 由 Rumelhart et 
al. (1986) 考虑 的 方法 ， 涉 及 到 梯度 下 降 。 认 识 到 这 两 个 阶段 属于 不 同 的 阶段 是 很 重要 的 。 
此 ， 第 一 阶段 ， 即 为 了 计算 导数 而 进行 的 误差 在 网 络 中 的 反 向 传播 阶段 ， 可 以 应 用 于 许多 其 他 
种 类 的 网 络 ， 而 不 仅仅 是 多 层 感知 器 。 它 也 可 以 应 用 于 其 他 的 误差 函数 ， 而 不 仅仅 是 简单 的 平 
方 和 误差 函数 。 它 也 可 以 用 于 计算 其 他 类 型 的 导数 ， 例 如 Jacobian 和 矩阵 和 Hessian 和 矩阵 ， 正 如 我 
们 将 在 本 章 后 面 看 到 的 那样 。 类 似 地 ， 第 二 阶段 ， 即 使 用 计算 过 的 导数 调整 权 值 的 阶段 ， 可 以 
使 用 许多 最 优化 方法 处 理 ， 许 多 最 优化 方法 本 质 上 要 比 简 单 的 梯度 下 降 更 强大 。 
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5.3.1 ”误差 函数 导数 的 计算 


我 们 现在 推导 适用 于 一 般 神经 网 络 的 反 向 传播 算法 。 这 种 神经 网 络 有 着 任意 的 前 馈 拓 扑 结 
构 ， 任 意 可 微 的 非 线 性 激活 函数 ， 以 及 一 大 类 的 误差 函数 。 推 导 的 结果 将 会 使 用 一 个 简单 的 层 
次 网 络 结构 说 明 ， 这 个 简单 的 层次 网 络 结构 有 一 个 单 层 的 sigmoid 隐 含 单元 以 及 平方 和 误差 函 
数 。 

许多 实际 应 用 中 使 用 的 误差 函数 ， 例 如 针对 一 组 独立 同 分 布 的 数据 的 最 大 似 然 方法 定义 的 误 
差 函 数 ， 由 硅 干 项 的 求 和 式 组 成 ， 每 一 项 对 应 于 训练 集 的 一 个 数据 点 ， 即 


N 
E(w) = 》 En(w) (5.44) 
n=1 


这 里 ， 我 们 要 考虑 的 是 计算 VEn(w) 的 问题 。 这 可 以 直接 使 用 顺序 优化 的 方法 计算 ， 或 者 使 用 
批 处 理 方法 在 训练 集 上 进行 累加 。 
首先 考虑 一 个 简单 的 线性 模型 ， 其 中 输出 y 是 输入 变量 2; 的 线性 组 合 ， 即 


yk = wir (5.45) 
对 于 一 个 特定 的 输入 模式 n， 误 差 函 数 的 形式 为 
1 
En=3 2 — tng) (5.46) 


其 中 yn = yr(zn, Ww)。 这 个 误差 函数 关于 一 个 权 值 wj; 的 梯度 为 
OE, 
它 可 以 表示 为 与 链接 wj; 的 输出 端 相关 联 的 “误差 信号 yw 一 tn; 和 与 链接 的 输入 端 相关 联 的 
变量 zm 的 乘积 。 在 4.3.2 节 ， 我 们 看 到 ， 对 于 logistic sigmoid 激 活 通 数 和 交叉 炉 误 差 浮 数 ， 以 
及 softmax 激 活 浮 数 和 与 之 匹配 的 交叉 炉 误 差 函 数 ， 也 可 以 得 到 类 似 的 结果 。 我 们 现在 会 看 到 这 
个 简单 的 结果 如 何 扩展 到 更 复杂 的 多 层 前 馈 神 经 网 络 中 。 
在 一 个 一 般 的 前 馈 网 络 中 ， 每 个 单元 都 会 计算 输入 的 一 个 加 权 和 ， 形 式 为 


Qj 三 Oe WjiZi (5.48) 
六 


= (Ynj tnj Tni (5.47) 


其 中 是 一 个 单元 的 激活 ， 或 者 是 输入 ， 它 向 单元 7 发送 一 个 链接 ，wji; 是 与 这 个 链接 关联 的 权 
值 。 在 5.1 节 ， 我们 看 到 偏 置 可 以 被 整合 到 这 个 求 和 式 中 ， 整 合 的 方法 是 引入 一 个 额外 的 单元 或 
输入 ， 然 后 令 激 活 恒 为 +1。 于 是 我 们 不 需要 显示 地 处 理 偏 置 。 公 式 (5.48) 中 的 求 和 式 通 过 一 
个 非 线 性 激活 函数 A(-) 进 行 变换 ， 得 到 单元 ;的 激活 z; ， 形 式 为 


zj = h(a;) (5.49) 


注意 ,公式 (5.48) 的 求 和 式 中 的 某 个 或 某 儿 个 :可 以 是 输入 ， 类 似 地 ， 公 式 (5.49) 中 的 单 
元 7 可 以 是 输出 。 

对 于 训练 集 里 的 每 个 模式 ， 我 们 会 假定 我 们 给 神经 网 络 提供 了 对 应 的 输入 疝 量 ， 然 后 通过 反 
复 应 用 公式 (5.48) 和 公式 (5.49) ， 计 算 神 经 网 络 中 所 有 隐 含 单元 和 输出 单元 的 激活 。 这 个 过 
程 通常 被 称 为 正 向 传播 (forward propagation) ， 因 为 它 可 以 被 看 做 网 络 中 的 一 个 向 前 流动 的 信 
息 流 。 

现在 考虑 计算 媚 关 于 权 值 wj 的 导数 。 各 个 单元 的 输出 会 依赖 于 某 个 特定 的 输入 模式 "。 但 
是 ， 为 了 保持 记号 的 简介 ， 我 们 将 省 略 神经 网 络 变量 中 的 下 标 凡 。 首 先 ， 我 们 注意 到 瓦 ,只 通过 
单元 7 的 经 过 求 和 之 后 的 输入 oz 对 权 值 wj 产生 依赖 。 因 此 ， 我 们 可 以 应 用 偏 导数 的 链 式 法 则 ， 
得 到 











OE, OE, Oa; 


(5.50) 
Duii Oa; Ow 
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图 5.7: 对 于 隐 和 传单 元 ij， 计 算 5; 的 说 明 。 计 算 时 使 用 了 向 单元 发 送信 息 的 那些 单元 k 的 9， 使 用 反 向 误差 
传播 方法 进行 计算 。 蓝 色 箭头 表示 在 正 向 传播 阶段 信息 流 的 方向 ， 红 色 箭 头 表示 误差 信息 的 反 向 传播 。 





现在 我 们 引入 一 个 有 用 的 记号 








_ 9E, 

jj = (5.5D) 
其 中 6 通常 被 称 为 误差 (error) ， 原 因 我 们 稍 后 会 看 到 。 使 用 公式 (5.48) ,我 们 有 

Oa; ea 

人 Z; (5.52) 
将 公式 (5.51) 和 公式 (5.52) 代入 公式 (5.50) ,我 们 有 

OF,, ee 

0 j (5.53) 


公式 (5.53) 告诉 我 们 ， 要 找 的 导数 可 以 通过 简单 地 将 权 值 输出 单元 的 6 值 与 权 值 输入 端的 z 值 相 
乘 的 方式 得 到 (对 于 偏 置 的 情形 ，z = 1) 。 注 意 ， 这 与 本 他 开始 时 讨论 的 简单 线性 模型 的 形式 
相同 。 因 此 ， 为 了 计算 导数 ， 我 们 只 需要 计算 网 络 中 每 个 隐 含 结 点 和 输出 结 点 的 6 的 值 ， 然 后 
应 用 公式 (5.53) 即 可 。 

正如 我 们 已 经 看 到 的 那样 ， 只 要 我 们 使 用 标准 链接 函数 作为 输出 单元 的 激活 函数 ， 那 么 对 于 
输出 单元 ， 我 们 就 有 





6 = yn — th (5.54) 
为 了 计算 隐 含 单元 的 6 值 ， 我 们 再 次 使 用 偏 导数 的 链 式 法 则 
OE, Oak 
= eo (5.55) 


其 中 求 和 式 的 作用 对 象 是 所 有 向 单元 j 发 送 链接 的 单元 kx。 图 5.7 说 明了 单元 和 权 值 的 设 定 。 注 
意 ， 单 元 k 可 以 包含 其 他 的 隐 含 单元 和 (或) 输出 单元 。 我 们 在 给 出 公式 (5.55) 时 ， 我 们 使 用 
了 这 个 事实 : aj 的 改变 所 造成 的 误差 函数 的 改变 的 唯一 来 源 是 变量 ax 的 改变 。 如 果 我 们 把 公式 
(5.51) 给 出 的 6 的 定义 代入 公式 (5.55) ， 然 后 使 用 公式 (5.48) 和 公式 (5.49) ， 我 们 就 得 到 
了 下 面 的 反 向 传播 (backpropagation) 公式 


— h(a;) bp WEIjORk (5.50) 
k 





这 表明 ， 一 个 特定 的 隐 含 单元 的 5 值 可 以 通过 将 网 络 中 更 高 层 单元 的 5 进行 反 向 传播 来 实现 ， 如 
图 5.7 所 示 。 注 意 ， 公 式 (5.56) 中 的 求 和 式 是 对 wn;j 的 第 一 个 下 标 进行 求 和 的 (对 应 于 信息 在 网 
络 中 的 反 向 传播 ) ， 而 在 正 向 传播 方程 (5.10) 中 ， 求 和 过 程 针 对 的 是 第 二 个 下 标 。 由 于 我 们 已 
经 知道 了 输出 单元 的 5， 因 此 通过 递归 地 应 用 公式 〈5.56) ,我 们 可 以 计算 前 馈 网 络 中 所 有 隐 含 
单元 的 6 值 ， 无 论 它 的 拓扑 结构 是 什么 样 的 。 

于 是 ， 反 向 传播 算法 可 以 总 结 如 下 。 


。 对 于 网 络 的 一 个 输入 向 量 zn， 使 用 公式 (5.48) 和 公式 (5.49) 进行 正 向 传播 ， 找 到 所 有 
隐 含 单元 和 输出 单元 的 激活 。 


"使 用 公式 〈5.54) 计算 所 有 输出 单元 的 54。 
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。 使 用 公式 (5.56) 反 向 传播 6， 获 得 网 络 中 所 有 隐 含 单元 的 6j。 
。 使 用 公式 (5.53) 计算 导数 。 
对 于 批 处 理 方法 ， 总 误差 函数 的 导数 可 以 通过 下 面 的 方式 得 到 : 对 于 训练 集 里 的 每 个 模 
式 ， 重 复 上 面 的 步骤 ， ee 即 
OE, 
= 


在 上 面 的 推导 中 ， 我 们 隐 式 地 假设 网 络 中 的 每 个 隐 含 单 元 或 答 入 半 元 都 有 相同 的 激活 函数 At )。 
然而 ， 这 个 推导 很 容易 推广 ， 使 得 得 不同 的 单元 可 以 有 各 自 的 激活 函数 ， 只 需 记 录 那 种 形式 
的 h(-) 进 入 了 那个 单元 即 可 。 


(5.57) 














5.3.2 一 个 简单 的 例子 


上 面 对 于 反问 传播 算法 的 推导 适用 于 一 般 形 式 的 误差 函数 、 激 活 函 数 、 以 及 网 络 拓 扑 结构 。 
为 了 说 明 这 个 算法 的 应 用 ， 我 们 考虑 一 个 具体 的 例子 。 这 个 例子 很 简单 ， 在 实际 应 用 中 也 很 重 
要 ， 因 为 文献 中 出 现 的 神经 网 络 的 许多 应 用 都 使 用 的 这 种 类 型 的 网 络 。 具 体 地 ， 我 们 会 考虑 图 
5.1 中 的 两 层 神 经 网 络 ， 误 差 函 数 为 平方 和 误差 函数 ， 输 出 单元 的 激活 函数 为 线性 激活 函数 ， 
即 y = ak， 而 隐 含 单元 的 激活 函数 为 S 形 函数 ， 形 式 为 





h(a) = tanh(a) (5.58) 
其 中 
er —e ® 
tanh(a) = a (5.59) 
这 个 函数 的 一 个 有 用 的 特征 是 ， 它 的 导数 可 以 表示 成 一 个 相当 简单 形式 
Wa)=1— h(a) (5.60) 
我 们 也 考虑 一 个 标准 的 平方 和 误差 函数 ， 即 对 于 模式 n， 误 差 为 
K 
En = 3 Dw = (5.61) 
k=1 


其 中 ， 对 于 一 个 特定 的 输入 模式 zn ，yx 是 输出 单元 k 的 激活 ， 妇 是 对 应 的 目标 值 。 
对 于 训练 集 里 的 每 个 模式 ， 我 们 首先 使 用 下 面 的 公式 进行 前 向 传播 。 


D 

Qj = > wh (5.62) 
i=0 

Zz; = tanh(a;) (5.63) 
M 

We > wh 2 (5.64) 
j=0 


接 下 来 我 们 使 用 下 面 的 公式 计算 每 个 输出 单元 的 6 值 。 
Ok = Yk — ty (5.65) 
然后 ,我们 使 用 下 面 的 公式 将 这 些 5 值 反 向 传播 ， 得 到 隐 含 单元 的 5 值 。 


K 
= (1 一 2%) >， Wj Ok (5.60) 





最 后 ， 关 于 第 一 层 权 值 和 第 二 层 权 值 的 导数 为 
DBP OPn 


= Ok2; (5.67) 
Aw!) Ow 
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5.3.3 反 向 传播 的 效率 


反 向 传播 的 一 个 重要 的 方面 是 它 的 计算 效率 。 为 了 理解 这 一 点 ， 让 我 们 考察 误差 函数 导数 的 
计算 次 数 与 网 络 中 权 值 和 偏 置 总 数 W 的 关系 。 计 算 一 次 误差 沙 数 (对 于 给 定 的 输入 模式 ) 需 
要 O(W) 次 操作 ， 其 中 WW 充分 大 。 这 是 因为 ， 除 非 网 络 的 链接 非常 稀 避 ， 否 则 权 值 的 数量 通常 
比 单元 的 数量 要 大 得 多 ， 因 此 正 向 传播 的 计算 复杂 度 主要 取决 于 公式 (5.48) 的 求 和 式 的 计算 ， 
而 激活 函数 的 计算 就 相对 耗 时 较 少 。 公 式 (5.48) 的 求 和 式 的 每 一 项 需要 一 次 乘法 和 一 次 加 法 ， 
从 而 整体 的 计算 开销 为 O(W )。 

另 一 种 计算 误差 函数 导数 的 反 向 传播 方法 是 使 用 有 限 差 。 首 先 让 每 个 权 值 有 一 个 扰动 ， 然 后 
使 用 下 面 的 表达 式 来 近似 导数 

OE, 2 En (wii 十 6) 二 En (wii) 
Ow;ji 加 € 
其 中 e 和 1。 在 软件 仿真 中 ， 通 过 让 e 变 小 ， 对 于 导数 的 近似 的 精度 可 以 提升 ， 直 到 e 过 小 ， 造 成 


下 溢 问 题 。 通 过 使 用 对 称 的 中 心 差 (central difference) ， 有 限 差 方法 的 精度 可 以 极 大 地 提高 。 
中 心 差 的 形式 为 





+- Ol(e) (5.68) 


OE, En (wii 十 6) 一 En (wii 一 6) 
Ow;ji 26 


在 这 种 情况 下 ，O(e) 修 正 项 等 于 零 ， 这 可 以 通过 公式 (5.69) 右 侧 的 泰勒 展开 证 明 ， 从 而 剩 下 的 
修正 项 是 O(e)。 然 而 ， 与 公式 (5.68) 相 比 ， 计 算 步 又 数 大 约 变 成 了 二 信 。 

计算 数值 导数 的 方法 的 主要 问题 是 ， 计 算 复杂 度 为 0(W) 这 一 性 质 不 再 成 立 。 每 次 正 向 传播 
需要 O(W) 步 ， 而 网 络 中 有 WW 个 权 值 ， 每 个 权 值 必须 被 单独 地 施加 扰动 ， 因 此 整体 的 时 间 复 杂 
度 为 OU )。 

然而 ， 数 值 导数 的 方法 在 实际 应 用 中 具有 重要 的 作用 ， 因 为 将 反 向 传播 算法 计算 的 导数 与 使 
用 中 心 差 计 算 的 导数 进行 对 比 ， 可 以 有 效 地 检查 反 向 传播 算法 的 执行 正确 性 。 在 实际 应 用 中 ， 
当 训 练 一 个 网 络 时 ， 导 数 应 该 使 用 反 向 传播 算法 计算 ， 因 为 这 种 方法 有 最 高 的 精度 和 效率 。 然 
而 ， 应 该 使 用 一 些 测试 样 例 ， 将 结果 与 公式 (5.69) 的 数值 导数 的 结果 进行 对 比 ， 检 查 执行 的 正 
确 性 。 


+O(e”) (5.69) 














5.3.4 ”Jacobian 和 矩阵 

我 们 已 经 看 到 了 误差 函数 关于 权 值 的 导数 是 如 何 通过 网 络 中 的 误差 反 向 传播 来 获得 的 。 误 差 
反 向 传播 技术 也 可 以 用 来 计算 其 他 类 型 的 导数 。 这 里 ， 我 们 考虑 Jacobian 和 矩阵 的 计算 ， 它 的 元 素 
的 值 是 网 络 的 输出 关于 输入 的 导数 





_ Oyk 

其 中 ， 计 算 每 个 这 样 的 导数 时 ， 其 他 的 输入 都 固定 。Jacobian 矩 阵 在 由 许多 不 同 模块 构建 的 系统 
中 很 有 用 ， 如 图 5.8 所 示 。 每 个 模块 可 以 由 一 个 固定 的 或 可 调 忆 的 函数 构成 ， 可 以 是 线性 的 或 者 
非 线 性 的 ， 只 要 可 微 即 可 。 假 设 我 们 想 关 于 图 5.8 中 的 参数 w， 最 小 化 误差 函数 忆 。 误 差 函 数 的 
导数 为 

9B _ ~ OB Ow 0 

Ow 2 Oyk Oz; OW ey 
其 中 ， 图 5.8 中 的 红色 模块 的 Jacobian 和 矩阵 出 现在 中 间 项 。 

由 于 Jacobian 逢 阵 度 量 了 输出 对 于 每 个 输入 变量 的 改变 的 敏感 性 ， 因 此 它 也 允许 与 输入 关联 
的 任意 已 知 的 误差 Azxi 在 训练 过 的 网 络 中 传播 ， 从 而 估计 他 们 对 于 输出 误差 Ayx 的 贡献 。 二 者 的 
关系 为 

a 
Ayx 2 Bo (5.72) 
只 要 |Azxi| 较 小 ， 这 个 关系 就 成 立 。 通 常 ， 训 练 过 的 神经 网 络 表示 的 网 络 映射 是 非 线性 的 ， 因 


此 Jacobian 和 矩阵 的 元 素 不 会 是 常数 ， 而 是 依赖 于 具体 使 用 的 输入 向 量 。 因 此 公式 (5.72) 只 在 输 
入 有 较 小 的 扰动 时 成 立 ， 并 且 对 于 每 个 新 的 输入 变量 ，Jacobian 和 矩阵 必须 重新 计算 。 
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图 5.8: 模块 化 模式 识别 系统 的 例子 ， 其 中 Jacobian 矩 阵 可 以 用 来 将 误差 信号 从 输出 模块 在 系统 中 反 向 传播 
到 更 早 的 模块 。 





Jacobian 和 矩阵 可 以 使 用 反 向 传播 的 方法 计算 ,计算 方法 类 似 于 之 前 推导 误差 浮 数 关于 权 值 的 
导数 的 方法 。 首 先 ， 我 们 把 元 素 .i 写成 下 面 的 形式 


| Oyk Oyk Oa; 
hi = Oxi 0 Daj Oi 








(5.73) 


_ yi 
了 ”Dai 


其 中 我 们 使 用 了 公式 (5.48) 。 公 式 (5.73) 中 的 求 和 式 作 用 于 所 有 单元 ;发 送 链接 的 单元 7 上 
(例如 ， 之 前 讨论 的 层次 拓扑 结构 中 的 第 一 个 隐 含 层 的 所 有 单元 ) 。 我 们 现在 一 个 递归 的 反 向 
传播 公式 来 确定 导数 2 。 


ON _ ~ OVk ou 
Oaj am Oa Oaj 
(5.74) 
=h(0j) Ya OO 
J ; J Oa 


其 中 求 和 的 对 象 为 所 有 单元 ;发送 链 接 的 单元 !( 对 应 于 wj 的 第 一 个 下 标 ) 。 与 之 前 一 样 ， 我 们 
使 用 了 公式 (5.48) 和 公式 (5.49) 。 这 个 反 向 传播 开始 于 输出 单元 。 对 于 输出 单元 ， 导 数 可 以 
直接 从 输出 单元 激活 函数 的 函数 形式 中 得 到 。 例 如 ， 如 果 对 于 每 个 输出 单元 ， 我 们 都 有 各 自 
的 sigmoid 函 数 ， 那 么 





OVk / 
一 oO 5.75 
9 OK (ay) ( ) 


而 对 于 softmax 输 出 ， 我 们 有 


和 = OYk 一 众人 (5.70) 
我 们 可 以 将 计算 Jacobian 算 阵 的 方法 总 结 如 下 。 将 输入 空间 中 要 寻找 Jacobian 和 矩阵 的 点 映射 成 
ee 将 这 个 输入 向 量 作 为 网 络 的 输入 ， 使 用 通常 的 正 向 传播 方法 ， 得 到 网 络 的 所 有 
含 单元 和 输出 单元 的 激活 。 接 下 来 ， 对 于 Jacobian 和 矩阵 的 每 一 行 上 _ (对 应 于 输出 单元 k) ， 使 用 
0 (5.74) 进行 反 向 传播 。 对 于 网 络 中 所 有 的 隐 含 结 点 ， 反 向 传播 开始 于 公式 (5.75) 和 
公式 (5.76) 。 最 后 ， 使 用 公式 (5.73) 进行 对 输入 单元 的 反 向 传播 。Jacobian 和 矩阵 的 男 一 种 计 
算 方法 是 正 向 传播 算法 ， 它 可 以 使 用 与 这 里 给 出 的 反 向 传播 算法 相 类 似 的 方式 推导 出 来 。 
与 之 前 一 样 ， 这 个 算法 的 执行 可 以 通过 下 面 的 数值 导数 的 方法 检验 正确 性 。 


Oyk _ Yk(Tit ©) — Yr(Ti— €) 2 
一 5.77 
Bs + O(e’) (5.77) 


对 于 一 个 有 着 DD 个 输入 的 网 络 来 说 ， 这 种 方法 需要 2D 次 正 向 传播 。 
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5.4 Hessian 和 矩阵 


我 们 已 经 说 明了 反 向 传播 的 方法 如 何 用 来 得 到 误差 函数 关于 网 络 的 权 值 的 一 阶 导数 。 反 向 传 
播 也 可 以 用 来 计算 误差 函数 的 二 阶 导数 ， 形 式 为 
OF 

OWji OWIk 


注意 ， 有 了 时 将 所 有 的 权 值 和 偏 置 参数 看 成 一 个 向 量 ( 记 作 w) 的 元 素 wi 更 方便 ， 此 时 二 阶 导数 
组 成 了 Hessian 和 矩阵 肪 的 元 素 H;， 其 中 i, 7 € {1,...,W}， 且 W 是 权 值 和 偏 置 的 总 数 。Hessian 算 
阵 在 神经 网 络 计 算 的 许多 方面 都 有 着 重要 的 作用 ， 包 括 : 


。 一些 用 来 训练 神经 网 络 的 非 线 性 最 优化 算法 是 基于 误差 曲面 的 二 阶 性 质 的 ， 这 些 性 质 
由 Hessian 和 矩阵 控制 (Bishop and Nabney, 2008) 。 


。 对 于 训练 数据 的 微小 改变 ，Hessian 算 阵 构 成 了 快速 重新 训练 前 馈 网 络 的 算法 的 基础 
(Bishop, 1991) 。 


。Hessian 和 矩阵 的 逆 和 矩阵 用 来 鉴别 神经 网 络 中 最 不 重要 的 权 值 ， 这 是 网 络 剪 枝 算法 的 一 部 分 
(LeCun et al., 1990) 。 


。 Hessian 矩 阵 是 贝 叶 斯 神经 网 络 〈 见 57 节 ) 的 拉 普 拉 斯 近似 的 核心 。 它 的 逆 和 矩阵 用 来 确定 
训练 过 的 神经 网 络 的 预测 分 布 ， 它 的 特征 值 确定 了 超 参数 的 值 ， 它 的 行列 式 用 来 计算 模型 
证 据 。 


计算 神经 网 络 的 Hessian 和 矩阵 有 很 多 近似 方法 。 然 而 ,使 用 反 向 传播 方法 的 一 个 扩 
展 ，Hessian 和 矩阵 可 以 精确 地 被 计算 出 来 。 

对 于 Hessian 和 矩阵 的 很 多 应 用 来 说 ， 一 个 重要 的 需要 考虑 的 问题 是 计算 效率 。 如 果 网 络 中 
有 W 个 参数 ( 权 值 和 偏 置 ) ， 那 么 Hessian 和 矩阵 的 维度 为 W x W ， 因 此 对 于 数据 集 里 的 每 个 模式 
来 说 ， 计 算 Hessian 失 阵 的 计算 量 为 O(W?)。 正 如 我 们 将 看 到 的 那样 ， 计 算 Hessian 和 矩阵 的 高 效 方 
法 的 计算 复杂 度 确实 是 O(W?)。 


(5.78) 





5.4.1 对 角 近 似 


上 面 讨 论 的 Hessian 和 矩阵 的 一 些 应 用 需要 求 出 Hessian 矩 阵 的 逆 和 矩阵 ， 而 不 是 Hessian 和 矩阵 本 
身 。 因 此 ， 我 们 对 Hessian 抢 阵 的 对 角 化 近似 比较 感 兴趣 。 换 句 话 说， 就 是 把 非 对 角 线 上 的 元 素 
置 为 零 ， 因 为 这 样 做 之 后 ， 和 矩阵 的 逆 矩 阵 很 容易 计算 。 与 之 前 一 样 ， 我 们 考虑 由 一 系列 项 的 求 
和 式 组 成 的 误差 浮 数 ， 每 一 项 对 应 于 数据 集 里 的 一 个 模式 ， 即 = > En。 这 样 ，Hessian 逢 
阵 可 以 通过 每 次 考虑 一 个 模式 然后 对 所 有 模式 求 和 的 方法 得 到 。 根 据 公 式 (5.48) ， 对 于 模 
式 n，Hessian 和 矩阵 的 对 角 线 元 素 可 以 写成 


OE, OF, 5 


人 好 (5.79) 
ji 








使 用 公式 (5.48) 和 公式 (5.49) ,公式 (5.79) 的 右 侧 的 二 阶 导 数 可 以 通过 递归 地 使 用 微分 的 
链 式 法 则 的 方式 求 出 。 这 样 ， 可 以 得 到 反 向 传播 方程 的 形式 为 


0 Ob, > OF,, 
i 5.80 
Oa? (a) pe WRIWS Bar ar 下 OR Oak B39 


如 果 我 们 忽略 二 阶 导 数 中 非 对 角 线 元 素 ， 那 么 我 们 有 (Becker and LeCun, 1989; LeCun et al,， 
1990) 








O02E O02E OF 
nN 至 用 2 2 nN h’ Wfed/ 5.81 
Ba 一 (9) Woo 2 0 0 
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注意 ， 需 要 计算 这 个 近似 ， 所 需 的 计算 步骤 数 为 O(W)， 其 中 W 是 网 络 中 权 值 和 偏 置 的 总 数 。 
对 于 原始 的 Hessian 矩 阵 ， 计 算 的 步骤 数 为 O(TF2)。 

Ricotti et al. (1998) 也 使 用 了 Hessian 和 矩阵 的 对 角 近 似 ， 但 是 他 们 在 计算 功 全 时 保留 了 所 有 
的 项 ， 从 而 得 到 了 对 角 项 的 精确 的 表达 式 。 注 意 ， 这 样 做 的 计算 复杂 度 不 再 是 O(W)。 然 而 ， 
对 角 近 似 的 主要 问题 是 ， 在 实际 应 用 中 Hessian 和 矩阵 通常 是 强烈 非 对 角 化 的 ， 因 此 为 了 计算 方便 
而 采取 的 这 些 近似 手段 必须 谨慎 使 用 。 





5.42 外 积 近似 
当 神 经 网 络 应 用 于 回归 问题 时 ， 通 常 使 用 下 面 形式 的 平方 和 误差 函数 


1 N 
b= 3 2 (5.82) 
为 了 记号 的 简洁 ， 我 们 考虑 单一 输出 的 情形 (推广 到 多 个 输出 是 很 直接 的 ) 。 这 样 ， 我 们 可 以 
把 Hessian 和 矩阵 写成 下 面 的 形式 


N N 
H=VVE= >， Vyn(Vyn)’ 3 六 — tn)V Vyn (5.83) 
n=1 n=1 


如 果 网 络 网 络 已 经 在 数据 集 上 训练 过 ， 输 出 y 恰 好 非常 接近 t;, ， 那 么 公式 (5.83) 的 第 二 项 会 很 
小 ， 可 以 被 忽略 。 然 而 ， 更 一 般 的 情况 下 ， 忽 略 这 一 项 可 能 更 合适 ， 理 由 如 下 。 回 忆 一 下 ， 根 
据 1.5.5 节 的 讨论 ， 最 小 化 平方 和 误差 函数 的 最 优 函 数 是 目标 数据 的 条 件 平均 。 这 样 ，(w 一 如 ) 是 
一 个 零 均值 的 随机 变量 。 如 果 我 们 假设 它 的 值 与 公式 (5.83) 右 侧 的 二 阶 导 数 项 无 关 ， 那 么 在 对 
于 n 的 求 和 项 中 ， 整 个 项 的 平均 值 将 会 等 于 零 。 

通过 忽略 公式 (5.83) 的 第 二 项 ， 我 们 就 得 到 了 Levenberg-Marquardt 近 似 ， 或 者 称 为 外 积 近 
似 (outer product approximation) (因为 此 时 Hessian 秆 阵 由 向 量 外 积 的 求 和 构造 出 来 ) ， 形 式 为 








N 
HY 加 村 (5.84 
A 


其 中 bn 三 Van = Vyn， 因 为 输出 单元 的 激活 函数 就 是 恒 等 函 数 。Hessian 和 矩阵 外 积 近 似 的 计算 
是 很 容易 的 ， 因 为 它 只 涉及 到 误差 函数 的 一 阶 导数 ， 这 可 以 通过 使 用 标准 的 反 向 传播 算法 
在 O(WW) 个 步 又 内 高 效 地 求 出 。 通 过 简单 的 乘法 ， 和 矩阵 的 元 素 可 以 在 O(W?) 个 步骤 内 计算 出 。 
需要 特别 强调 的 一 点 是 ， 这 种 近似 只 在 网 络 被 恰当 地 训练 时 才 成 立 ， 对 于 一 个 一 般 的 网 络 映 
射 ， 公 式 (5.83) 的 右 侧 的 三 阶 导数 项 通常 不 能 忽略 。 

在 误差 函数 为 交 又 炉 误差 函数 ， 输 出 单元 激活 函数 为 logistic sigmoid 函 数 的 神经 网 络 中 ， 对 
应 的 近似 为 





N 
HY yn(l — yn)bnb, (5.85) 
n=1 
对 于 输出 函数 为 softmax 函 数 的 多 类 神经 网 络 ， 可 以 得 到 类 似 的 结果 。 


5.4.3 ”Hessian 和 矩阵 的 逆 算 阵 


使 用 外 积 近似 ， 我 们 可 以 提出 一 个 计算 Hessian 和 矩阵 的 逆 矩 阵 的 高 效 方法 (Hassibi and Stork, 
1993) 。 首 先 ， 我 们 用 矩阵 的 记号 写 出 外 积 近 似 ， 即 


N 
Hn= > bnb, (5.80) 


n=1] 
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其 中 ，bn = Yuwan 是 数据 点 "产生 的 输出 单元 激活 对 梯度 的 贡献 。 我 们 现在 推导 一 个 建 


立 Hessian 和 矩阵 的 顺序 步 又， 每 次 处 理 一 个 数据 点 。 假 设 我 们 已 经 使 用 前 Z 个 数据 点 得 到 
了 Hessian 抢 阵 的 逆 矩 阵 。 通 过 将 第 二 十 1 个 数据 点 的 贡献 单独 写 出 来 ， 我 们 有 
Hiri = 万 7 十 DrHibt (5.87) 


为 了 计算 Hessian 和 矩阵 的 逆 和 矩阵 ， 我 们 考虑 下 面 的 矩阵 恒等式 


(M-iv)(v i M-!) 
1 十 TAMIL 


这 个 恒等式 是 Woodbury 恒 等 式 〈C.7) 的 一 个 特例 。 如 果 我 们 令 互 z = M， 且 br41 = ， 我 们 
有 


(M+vv') 1!=M-! (5.88) 





Hy birnbirHy 
1+bLrHy br 


使 用 这 种 方式 ， 数 据点 可 以 依次 使 用 ， 直 到 二 十 1 = NN， 整个 数据 集 被 处 理 完毕 。 于 是 ， 这 个 结 
果 表 示 一 个 计算 Hessian 矩 阵 的 逆 和 矩阵 的 算法 ， 这 个 算法 只 需 对 数据 集 扫描 一 次 。 最 开始 的 矩 
阵 瑟 0 被 选 为 coT， 其 中 oa 是 一 个 较 小 的 量 ， 从 而 算法 实际 找 的 是 五 + a7 的 闭 矩 阵 。 结 果 对 于 a 的 
精确 值 不 是 特别 敏感 。 将 这 个 算法 推广 到 多 于 一 个 输出 的 情形 是 很 直接 的 。 

这 里 ， 我 们 注意 到 ，Hessian 和 矩阵 有 时 可 以 作为 神经 网 络 训 练 算法 的 一 部 分 被 间接 计算 。 特 
别 地 ， 拟 牛顿 非 线性 优化 算法 在 训练 过 程 中 逐步 建立 起 Hessian 矩 阵 的 逆 和 矩阵 的 近似 。 关 于 这 种 
算法 的 详细 讨论 ， 可 以 参考 Bishop and Nabney (2008) 。 


| 本 | 
Hiii= HL (5.89) 





5.4.4 有 限 差 
与 误差 函数 的 一 阶 导数 的 形式 相同 ， 我 们 可 以 使 用 有 限 差 的 方法 求 二 阶 导 数 ， 精 度 受 数值 计 
算 的 精度 限制 。 如 果 我 们 对 每 对 可 能 的 权 值 施加 一 个 扰动 ， 那 么 我 们 有 
Bn 
OWiOWLIk 





1 
到 E(w — E(w Ns 
ra (wii t+ €, wig + ©) (wii t+ €, Wik — €) (5.90) 


— E(wii—e€, wkte) + E(w me, wk — €)}+ Ole) 


与 之 前 一 样 ， 通 过 使 用 对 称 的 中 心 差 ， 我 们 确保 了 残留 的 误差 项 是 O(@) 而 不 是 O(e)。 由 于 
在 Hessian 矩 阵 中 有 全 ?个 元 素 ， 且 每 个 元 素 的 计算 需要 四 次 正 向 传播 过 程 ， 每 个 传播 过 程 需 
要 O(W) 次 操作 〈 每 个 模式 ) ， 因 此 我 们 看 到 这 种 方法 计算 完整 的 Hessian 矩 阵 需 要 O(TY3) 次 操 
这 个 方法 的 计算 性 质 很 差 ， 虽 然 在 实际 应 用 中 它 对 于 检查 反 向 传播 算法 的 执行 的 正 
确 性 很 有 用 。 

一 个 更 加 高 效 的 数值 导数 的 方法 是 将 中 心 差 应 用 于 一 阶 导数 ， 而 一 阶 导数 可 以 通过 反 向 传播 
方法 计算 。 即 








OB 1 f OE OF Se 

二 { (wik 9) +- Ol(e’) (5.91) 
由 于 只 需要 对 W 个 权 值 施加 扰动 ， 且 梯度 可 以 通过 O(W) 次 计算 得 到 ， 因 此 我 们 看 到 这 种 方法 
可 以 在 O(W?) 次 操作 内 得 到 Hessian 和 矩阵 。 


Du 


5.4.5 “Hessian 和 无 阵 的 精确 计算 


目前 为 止 ， 我 们 已 经 研究 了 各 种 计算 Hessian 和 矩阵 或 者 逆 和 矩阵 的 近似 方法 。 对 于 一 个 任意 的 
前 馈 折 扑 结构 的 网 络 ，Hessian 和 矩阵 也 可 以 精确 地 计算 。 计 算 的 方法 是 使 用 反 向 传播 算法 计算 一 
阶 导数 的 推广 ， 同 时 也 保留 了 计算 一 阶 导 数 的 方法 的 许多 良好 的 性 质 ， 包 括 计 算 效 率 〈Bishop， 
1991; Bishop, 1992) 。 这 种 方法 可 以 应 用 于 任何 可 微 的 可 以 表示 成 网 络 输出 的 函数 形式 的 误差 
函数 ， 以 及 任何 具有 可 微 的 激活 函数 的 神经 网 络 。 计 算 Hessian 和 矩阵 所 需 的 计算 步 又 为 O(W?)。 
类 似 的 算法 也 可 以 参考 Buntine and Weigend (1993) 。 
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这 里 我 们 考虑 一 个 具体 的 情况 ， 即 具有 两 层 权 值 的 网 络 。 这 种 网 络 中 待 求 的 方程 很 容易 推 
导 。 我 们 将 使 用 下 标 ? 和 ?表示 输入 ， 用 下 标 7 和 7 表示 隐 含 单元 ， 用 下 标 5 利 有 表示 和 输出。 首先 我 
们 定义 

OF, 四 
本 Oak ， Mew OaxrOar 
其 中 妞 ,是 数据 点 n 对 误差 函数 的 页 献 。 于 是 ， 这 个 网 络 的 Hessian 窍 阵 可 以 被 看 成 三 个 独立 的 模 
块 ， 即 


。 两 个 权 值 都 在 第 二 层 。 


Ok (5.92) 





O22, 


a ZiZir Mpg (5.93) 
Bu 人 Bl 7 


“两 个 权 值 都 在 第 一 层 。 


Ob, > 

Be ph 一 502 有 (a ) Ty >， 6 
人 (5.94) 

+ vizeh (ap) (oa;) D> > wh wk Mew 
k kk/ 
“每 一 层 有 一 个 权 值 。 
OE 

一 一 rih (a;) O17 十 Z7/ >， MMRk (5.95) 

Du Du 好 本 


这 里 17 是 单位 矩阵 的 第 7.7 个 元 素 。 如 果 权 值 中 的 一 个 或 者 两 个 是 偏 置 项 ， 那 么 只 需 将 激活 设 
为 1 即 可 得 到 对 应 的 表达 式 。 很 容易 将 这 个 结果 推广 到 允许 网 络 包含 跨 层 链接 的 情形 。 


5.4.6 ”Hessian 容 阵 的 快速 乘法 


对 于 Hessian 矩 阵 的 许多 应 用 来 说 ， 我 们 感 兴趣 的 不 是 Hessian 和 矩阵 瑟 本 身 ， 而 是 吾 与 某 
些 向 量 v 的 乘积 。 我 们 已 经 看 到 Hessian 知 阵 的 计算 需要 O(W?) 次 操作 ， 所 需 的 存储 空间 也 
是 O(W?)。 但 是 ,我们 想 要 计算 的 向 量 v7 吾 只 有 WW 个 元 素 。 因 此 ， 我们 可 以 不 把 计算 Hessian 条 
阵 当 成 一 个 中 间 的 步 骤 ， 而 是 可 以 尝试 寻找 一 种 只 需 O(W) 次 操作 的 直接 计算 v7 五 的 高 效 方 
法 。 

为 了 完成 这 一 点 ， 我 们 首先 注意 到 


viH=v VY(VE) (5.90) 


其 中 V 表 示 权 空间 的 梯度 算 符 。 然 后 ， 我 们 可 以 写 下 计算 V 五 的 标准 正 向 传播 和 反 向 传播 的 方 
程 ， 然 后 将 公式 (5.96) 应 用 于 这 些 方程 ， 得 到 一 组 计算 刀 瑟 的 正 向 传播 和 反 向 传播 的 方程 
(Moeller, 1993; Pearlmutter 1994) 。 这 对 应 于 将 微分 算 符 wzV 作 用 于 原始 的 正 向 传播 和 反 向 传 
播 的 方程 。Pearlmutter (1994) 使 用 记号 RR{} 表 示 算 符 v 了 V， 我 们 将 遵从 这 个 惯例 。 下 面 的 分 
析 过 程 很 直接 ， 我 们 会 使 用 通常 的 微 积分 规则 ， 以 及 下 面 的 结果 


R{w} = wv (5.97) 
我 们 会 使 用 一 个 简单 的 例子 来 说 明 这 个 方法 。 与 之 前 一 样 ， 我 们 使 用 图 5.1 所 示 的 两 层 网 
络 ， 以 及 线性 的 输出 单元 和 平方 和 误差 函数 。 我 们 考虑 数据 集 里 的 一 个 模式 对 于 误差 函数 的 贡 


献 。 这 样 ， 我 们 所 要 求解 的 向 量 可 以 通过 求 出 每 个 模式 各 自 的 贡献 然后 求 和 的 方式 得 到 。 对 于 
两 层 神 经 网 络 ， 正 向 传播 方程 为 
Qj 二 2 (5.98) 
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271 一 h(a;) (5.99) 


= (5.100) 


我 们 现在 使 用 及 {.} 算 符 作用 于 这 些 方程 上 ， 得 到 一 组 正 向 传播 方程 ， 形 式 为 


R{a;} 一 i (5.101) 

R{z;} 一 h(a;)R{a;} (5.102) 

R{yx} = Se WkjRAZj} 十 > URj 2 (5.103) 
了 了 


其 中 ,wj 是 向 量 v 中 对 应 于 权 值 wj; 的 元 素 。R{zj},R{Qj;} 和 R{yx} 可 以 被 看 做 新 的 变量 ， 它 的 
值 可 以 使 用 上 面 的 方程 得 到 。 

由 于 我 们 考虑 的 时 平方 和 误差 函数 ， 因 此 我 们 有 下 面 的 标准 的 反 向 传播 表达 式 
Ok = Yk — tk (5.104) 
0 一 h(a;) 2 WEIjORk (5.105) 

k 

与 之 前 一 样 ， 我 们 将 尺 {} 算 符 作 用 于 这 些 方程 上 ， 得 到 一 组 反 向 传播 方程 ， 形 式 为 

RI{6k} = R{ (5.100) 


R{6} = 1 (a;)R{a;} 》 wesdk 
k 





(5.107) 
村 h(a;) > VkjOk 证 六 (oaj) 为 ， Wj RAOk} 
k k 
最 后 ， 我 们 有 误差 函数 的 一 阶 导 数 的 方程 
OF 
= Op2j (5.108) 
OF 
使 用 尺 {:} 算 符 作 用 在 这 些 方程 上 ， 我 们 得 到 了 下 面 的 关于 wo 五 的 表达 式 
OF 
及 { Br } = R{Ok}2; 十 OkR{Z;} (5.110) 
OF 


算法 的 执行 涉及 到 将 新 的 变量 R{a;},R{z;} 和 RR{6;} 引 入 到 隐 含 单元 ， 将 R{6k} 和 R{yx} 引 
入 到 输出 单元 。 对 于 每 个 输入 模式 ， 这 些 量 的 值 可 以 使 用 上 面 的 结果 求 出 ，v? 瑟 的 元 素 的 值 由 
公式 (5.110) 和 公式 (5.111) 给 出 。 这 种 方法 的 一 个 好 处 是 ， 计 算 v7 五 的 方程 与 标准 的 正 向 传 
播 和 反 向 传播 的 方程 相同 ， 因 此 将 现 有 的 神经 网 络 计算 程序 扩展 到 能 够 计算 这 个 乘积 通常 很 容 
易 





如 果 必 要 的 话 ， 这 个 方法 可 以 用 来 计算 完整 的 Hessian 和 矩阵。 计算 的 方法 为 : 将 向 量 v 选 为 一 
系列 的 形 如 (0,0,.….,1,.….,0) 的 单位 向 量 ， 每 个 单位 向 量 选 出 Hessian 和 矩阵 中 的 一 列 。 这 种 方法 
的 数学 形式 与 Bishop (1992) 的 反 向 传播 算法 等 价 ， 如 5.4.5 节 所 述 。 但 是 这 种 方法 由 于 宛 余 的 
计算 的 存在 ， 会 损失 一 定 的 计算 效率 。 
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图 5.9: 使 用 从 正弦 数据 集中 抽取 的 10 个 数据 点 训练 的 两 层 神 经 网 络 的 例子 。 各 图 分 别 给 出 了 使 
I 
函数 。 
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图 5.10: 对 于 多 项 式 数据 集 ， 测 试 集 的 平方 和 误差 与 网 络 的 隐 含 单元 的 数量 的 图 像 。 对 于 每 个 网 络 规模 ， 
都 随机 选择 了 30 个 初始 点 ， 这 展示 了 局 部 最 小 值 的 效果 。 对 于 每 个 新 的 初始 点 ， 权 向 量 通 过 从 一 个 各 向 
同性 的 高 斯 分 布 中 取样 ， 这 个 高 斯 分 布 的 均值 为 零 ， 方 差 为 10。 


5.5 神经 网 络 的 正则 化 


神经 网 络 的 输入 单元 和 输出 单元 的 数量 通常 由 数据 集 的 维度 确定 ， 而 隐 含 单元 的 数量 M 是 
一 个 自由 的 参数 ， 可 以 通过 调节 来 给 出 最 好 的 预测 性 能 。 注 意 ，M 控 制 了 网 络 中 参数 〈 权 值 和 
偏 置 ) 的 数量 ， 因 此 我 们 可 以 猜想 ， 在 最 大 似 然 的 框架 下 ， 会 存在 一 个 泛 化 性 能 最 好 的 最 优 
的 M 值 ， 这 个 值 对 应 于 拟 合 效果 不 好 和 过 拟 合 之 间 的 最 优 平衡 。 图 5.9 给 出 了 不 同 的 M 值 对 于 正 
弦 曲 线 回 归 问 题 的 效果 。 

然而 ， 泛 化 误差 与 M 的 关系 不 是 一 个 简单 的 函数 关系 ， 因 为 误差 函数 中 存在 局 部 极 小 值 ， 
如 图 5.10 所 示 。 这 里 ， 我 们 看 到 了 对 于 不 同 的 M 值 ， 权 值 的 多 次 随机 初始 化 的 效果 。 在 验证 集 
上 的 整体 最 优 表现 出 现 于 M = 8 的 情况 下 的 某 个 特定 的 解 。 在 实际 应 用 中 ， 一 种 选择 M 的 方法 
实际 上 是 画 一 张 类 似 图 5.10 的 图 ， 然 后 选择 有 最 小 验证 集 误差 的 具体 的 解 。 

然而 ， 有 其 他 的 方式 控制 神经 网 络 的 模型 复杂 度 来 避免 过 拟 合 。 根 据 我 们 第 1 章 中 对 多 项 式 
曲线 拟 合 问 题 的 讨论 ， 我 们 看 到 ， 一 种 方法 是 选择 一 个 相对 大 的 M 值 ， 然 后 通过 给 误差 函数 增 
加 一 个 正则 化 项 ， 来 控制 模型 的 复杂 度 。 最 简单 的 正则 化 项 是 二 次 的 ， 给 出 了 正则 化 的 误差 函 
数 ， 形 式 为 

E(w) = E(w)+ SwTw (5.112) 
这 个 正则 化 项 也 被 称 为 权 值 衰减 (weight decay) ， 已 经 在 第 3 章 中 详细 讨论 过 了 。 这 样 ， 模 型 


复杂 度 可 以 通过 选择 正则 化 系数 和 来 确定 。 正 如 我 们 之 前 看 到 的 那样 ， 正 则 化 项 可 以 表示 为 权 
值 w 上 的 零 均 值 高 斯 先 验 分 布 的 负 对 数 。 
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5.5.1 相 容 的 高 斯 先 验 


公式 (5.112) 给 出 的 简单 权 值 衰减 的 一 个 局 限 性 是 ， 它 与 网 络 映射 的 确定 缩放 性 质 不 相 容 。 
为 了 说 明 这 一 点 ， 考 虑 一 个 多 层 感知 器 网 络 ， 这 个 网 络 有 两 层 权 值 和 线性 输出 单元 ， 它 给 出 了 
从 输入 变量 集合 {xi} 到 输出 变量 集合 {yk} 的 映射 。 第 一 个 隐 含 层 的 隐 含 单元 的 激活 的 形式 为 


让 h bs WjiTi 二 wn] (5.113) 


2 





输出 单元 的 激活 为 
Yk 一 > WEj ZI 十 WkO (5.114) 
3 


假设 我 们 对 输入 变量 进行 一 个 线性 变换 ， 形 式 为 
Ti Ki= arit+b (5.115) 


然后 我 们 可 以 根据 这 个 映射 对 网 络 进行 调整 ， 使 得 网 络 给 出 的 映射 不 变 。 调 整 的 方法 为 ， 对 从 
输入 单元 到 隐 含 层 单元 的 权 值 和 偏 置 也 进行 一 个 对 应 的 线性 变换 ， 形 式 为 


Wi 一 Wiji = 了 oj (5.110) 
710 一 710 = wjo0 一 入 (5.117) 
类 似 地 ， 网 络 的 输出 变量 的 线性 变换 
大 一 大 三 CI 十 (5.118) 
可 以 通过 对 第 二 层 的 权 值 和 偏 置 进行 线性 变换 的 方式 实现 。 变 换 的 形式 为 
WEI WRj = CWEj (5.119) 
Wk0 一 Ko0 = cwrot+d (5.120) 





如 果 我 们 使 用 原始 数据 训练 一 个 网 络 ， 还 使 用 输入 和 (或) 目标 变量 进行 了 上 面 的 线性 变换 的 
数据 训练 一 个 网 络 ， 那 么 相 容 性 要 求 这 两 个 网 络 应 该 是 等 价 的 ， 差 别 仅 在 于 上 面 给 出 的 权 值 的 
线性 变换 。 任 何 正则 化 项 都 应 该 与 这 个 性 质 相 容 ， 否 则 模型 就 会 倾向 于 选择 某 个 解 ， 而 忽视 某 
个 等 价 的 解 。 显 然 ， 简 单 的 权 值 衰减 (5.112) 由 于 把 所 有 的 权 值 和 偏 置 同等 对 待 ， 因 此 不 满足 
这 个 性 质 。 

于 是 我 们 要 寻找 一 个 正则 化 项 ， 它 在 线性 变换 (5.116) 、 (5.117) 、 (5.119) 和 “(5.120) 
下 具有 不 变性 。 这 需要 正则 化 项 应 该 对 于 权 值 的 重新 缩放 不 变 ， 对 于 偏 置 的 平移 不 变 。 这 样 的 
正则 化 项 为 
和 A 2 十 记 Sw (5.121) 


2 
WEW!1 WwWEW> 


其 中 WW 表示 第 一 层 的 权 值 集合 ,Mw 表示 第 二 层 的 权 值 集合 ， 偏 置 未 出 现在 求 和 式 中 。 
这 个 正则 化 项 在 权 值 的 变换 下 不 会 发 生变 化 ， 只 要 正则 化 参数 进行 下 面 的 重新 放 缩 即 
可 : Al 一 az 和 》o? 一 c 3 和 A2。 

正则 化 项 (5.121) 对 应 于 下 面 形式 的 先 验 概率 分 布 。 


pl lovoy) rep| -2 Dw (5.122) 
2 IE]M1 2 WEW> 

注意 ， 这 种 形式 的 先 验 是 反常 的 (improper) (不 能 够 被 归 一 化 ) ， 因 为 偏 置 参数 没有 限制 。 

使 用 反常 先 验 会 给 正则 化 系数 的 选择 造成 很 大 的 困难 ， 也 会 给 贝 叶 斯 框架 下 的 模型 选择 造成 很 
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图 5.11: 控制 两 层 神经 网 络 的 权 值 和 偏 置 的 先 验 概 率 分 布 的 超 参 数 的 效果 说 明 。 其 中 ， 神 经 网 络 有 一 个 输 
入 ， 一 个 线性 输出 ， 以 及 12 个 隐 含 结 点 ， 隐 含 结 点 的 激活 函数 为 tanh。 先 验 概率 分 布 通过 四 个 超 参 
数 oa , oo a 控制 ， 它 们 分 别 表示 第 一 层 的 偏 置 、 第 一 层 的 权 值 、 第 二 层 的 偏 置 、 第 二 层 的 权 值 。 我 
们 看 到 ， 参 数 史 控制 函数 的 垂直 标 度 〈 注 意 上 方 两 张 图 的 垂直 轴 的 标 度 不 同 ) ，a? 了 控制 函数 值 变 化 的 水 
平 标 度 ，a? 控 制 变化 发 生 的 水 平 范围 。 参 数 a3， 它 的 效果 没有 在 这 里 说 明 ， 它 控制 了 函数 的 垂直 偏 置 的 
范围 。 
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图 5.12: 训练 集 误差 〈 左 图 ) 和 验证 集 误差 ( 右 图 ) 在 典型 的 训练 阶段 的 行为 说 明 。 图 像 给 出 了 误差 与 迭 
代 次 数 的 函数 ， 数 据 集 为 正弦 数据 集 。 得 到 最 好 的 泛 化 表现 的 目标 表明 ， 训练 应 该 在 垂直 虚线 表示 的 点 
处 停止 ， 对 应 于 验证 集 误 差 的 最 小 值 。 





大 的 困难 ， 因 为 对 应 的 模型 证 据 等 于 零 。 因 此 ， 通 常 的 做 法 是 单独 包含 一 个 有 着 自己 单独 的 一 
套 超 参 数 的 偏 置 的 先 验 (这 就 破坏 了 平移 不 变性 ) 。 为 了 说 明 四 个 参数 的 效果 ， 我 们 从 先 验 中 
抽取 样本 ， 然 后 画 出 了 对 应 的 神经 网 络 函 数 ， 如 图 5.11 所 示 。 

更 一 般 地 ， 我 们 可 以 考虑 权 值 被 分 为 任意 数量 的 组 Wi 的 情况 下 的 先 验 ， 即 





1 
p(w) cc exp (3 owl (5.123) 
其 中 
w= > (5.124) 
jEWR 


作为 这 种 形式 的 先 验 的 一 个 特殊 情况 ， 如 果 我 们 将 每 个 输入 单元 关联 的 权 值 设 为 一 个 分 组 ， 并 
且 关 于 对 应 的 参数 ax 最 优化 边缘 似 然 函数 ， 那 么 我 们 就 得 到 了 将 在 7.2.2 节 讨论 的 自动 相关 性 确 


定 (automatic relevance determination) 的 方法 。 


5.5.2” 早 停止 


另 一 种 控制 网 络 的 复杂 度 的 正则 化 方法 是 早 停止 (early stopping) 。 非 线性 网 络 模型 的 训练 
对 应 于 误差 函数 的 迭代 减 小 ， 其 中 误差 函数 是 关于 训练 数据 集 定 义 的 。 对 于 许多 用 于 网 络 训练 
的 最 优化 算法 〈 例 如 共 斩 梯 度 法 ) ,误差 浮 数 是 一 个 关于 迭代 次 数 的 不 增 函 数 。 然 而， 在 独立 
数据 (通常 被 称 为 验证 集 ) 上 测量 的 误差 ， 通 常 首先 减 小 ， 接 下 来 由 于 模型 开始 过 拟 合 而 逐渐 
增 大 。 于 是 ， 训 练 过 程 可 以 在 关于 验证 集 误差 最 小 的 点 停止 ， 如 图 5.12 所 示 。 这 样 可 以 得 到 一 个 
有 着 较 好 泛 化 性 能 的 网 络 。 

这 种 情况 下 ， 网 络 的 行为 有 时 可 以 通过 网 络 的 自由 度 有 效 数 量 来 定量 描述 。 自 由 度 有 效 数量 
开始 时 很 小 ， 然 后 在 训练 过 程 中 增长 ， 对 应 于 模型 复杂 度 的 持续 增长 。 这 样 ， 在 训练 误差 达到 
最 小 值 之 前 停止 训练 就 表示 了 一 种 限制 模型 复杂 度 的 方式 。 

在 二 次 误差 函数 的 情况 下 ， 我 们 可 以 说 明 这 种 直观 的 描述 ， 并 且说 明 早 停止 的 效果 与 使 用 简 
单 的 权 值 衰减 的 正则 化 项 的 效果 类 似 。 这 可 以 通过 图 5.13 来 理解 。 图 5.13 中 ， 权 值 空间 的 坐标 轴 
已 经 进行 了 旋转 ， 使 得 坐标 轴 平 行 于 Hessian 和 矩阵 的 特征 向 量 。 在 没有 权 值 衰减 的 情况 下 ， 如 果 
权 向 量 开 始 于 原点 ， 然 后 在 训练 过 程 中 沿 着 局 部 负 梯 度 向 量 确定 的 路 径 移动 ， 那 么 权 向 量 从 最 
开始 平行 于 w? 轴 的 位 置 ， 移 动 到 大 致 对 应 于 也 的 位 置 ， 然 后 移 向 最 小 化 误差 函数 的 位 置 wMrr。 
这 可 以 从 误差 曲面 和 Hessian 和 矩阵 的 特征 值得 出 。 于 是 ， 在 点 包 附 近 停 止 就 类 似 于 权 值 衰减 。 早 
停止 和 权 值 衰减 之 间 的 关系 可 以 定量 描述 ， 因 此 说 明了 7m (其 中 7 是 迭代 次 数 ，n 是 学 习 率 参 
数 ) 扮演 了 正则 化 参数 和 的 倒数 的 角色 。 于 是 网 络 中 有 效 参 数 的 数量 会 在 训练 过 程 中 增长 。 
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图 5.13: 在 二 次 误差 沙 数 的 情况 下 ， 关 于 早 停止 可 以 给 出 与 权 值 衰减 类 似 的 结果 的 原因 说 明 。 椭 圆 给 出 了 
常数 误差 函数 的 轮 廊 线 ，wxmLi 表 示 误 差 函 数 的 最 小 值 。 如 果 权 向 量 的 起 始点 为 原点 ， 按 照 局 部 负 梯 度 的 
方向 移动 ， 那 么 它 会 沿 着 曲线 给 出 的 路 径 移 动 。 通 过 对 训练 过 程 早 停 止 ， 我 们 找到 了 一 个 权 值 向 量 忆 。 
定性 地 说 ， 它 类 似 于 使 用 简单 的 权 值 衰减 正则 化 项 ， 然 后 最 小 化 正则 化 误差 函数 的 方法 得 到 的 权 值 。 通 
过 与 图 3.15 进 行 对 比 ， 我 们 可 以 看 到 这 一 点 。 


5.5.3 不 变性 


在 许多 模式 识别 的 应 用 中 ， 在 对 于 输入 变量 进行 了 一 个 或 者 多 个 变换 之 后 ， 预 测 不 应 该 发 生 
变化 ， 或 者 说 应 该 具有 不 变性 (invariant) 。 例 如 ， 在 三 维 图 像 (例如 手写 数字 ) 的 分 类 问题 
中 ， 一 个 特定 的 图 像 的 类 别 应 该 与 图 像 的 位 置 无 关 (平移 不 变性 (translation invariance) ) ， 
也 应 该 与 图 像 的 大 小 无 关 (缩放 不 变性 (scale invariance) ) 。 这 样 的 变换 对 于 原始 数据 (用 图 
像 的 每 个 像素 的 灰 度 值 表示 ) 产生 了 巨大 的 改变 ， 但 是 分 类 系统 还 是 应 该 给 出 同样 的 输出 。 类 
似 地 ， 在 语音 识别 中 ， 对 于 时 间 轴 的 微小 的 非 线 性 变形 (保持 了 时 间 顺 序 ) 不 应 该 改变 信号 的 
意义 。 

如 果 可 以 得 到 足够 多 的 训练 模式 ， 那 么 可 调节 的 模型 〈 例 如 神经 网 络 ) 可 以 学 习 到 不 变性 ， 
至 少 可 以 近似 地 学 习 到 。 这 涉及 到 在 训练 集 里 包含 足够 多 的 表示 各 种 变换 的 效果 的 样本 。 因 
此 ， 对 于 一 个 图 像 的 平移 不 变性 ， 训 练 集 应 该 包含 图 像 出 现在 多 个 不 同位 置 的 情况 下 的 数据 。 

但 是 ， 如 果 训 练 样本 数 受 限 ， 或 者 有 多 个 不 变性 (变换 的 组 合 的 数量 随 着 变换 的 数量 指数 增 
长 ) ， 那 么 这 种 方法 就 很 不 实用 。 于 是 ， 我 们 要 寻找 另外 的 方法 来 让 可 调节 的 模型 能 够 表述 所 
需 的 不 变性 。 这 些 方法 大 致 可 以 分 为 四 类 。 


“通过 复制 训练 模式 ， 同 时 根据 要 求 的 不 变性 进行 变换 ， 对 训练 集 进 行 扩展 。 例 如 ， 在 手写 
数字 识别 的 例子 中 ， 我 们 可 以 将 每 个 样本 复制 多 次 ， 每 个 复制 后 的 样本 中 ， 图 像 被 平移 到 
了 不 同 的 位 置 。 


* 为 误差 函数 加 上 一 个 正则 化 项 ， 用 来 惩罚 当 输入 进行 变换 时 ， 输 出 发 生 的 改变 。 这 引出 了 
5.5.4 节 讨论 的 切线 传播 (tangent propagation) 方法 。 


“通过 抽取 在 要 求 的 变换 下 不 发 生 改 变 的 特征 ， 不 变性 被 整合 到 预 处 理 过 程 中 。 任 何 后 续 的 
使 用 这 些 特征 作为 输入 的 回归 或 者 分 类 系统 就 会 具有 这 些 不 变性 。 


“最 后 一 种 方法 是 把 不 变性 的 性 质 整 合 到 神经 网 络 的 构建 过 程 中 ， 或 者 对 于 相关 向 量 机 的 方 
法 ， 整 合 到 核 函数 中 。 一 种 方法 是 通过 使 用 局 部 接收 场 和 共享 权 值 ， 正 如 5.5.6 节 在 卷 积 神 
经 网 络 中 讨论 的 那样 。 


方法 1 通常 实现 起 来 相对 简单 ， 并 且 可 以 用 来 处 理 复 杂 的 不 变性 ， 如 图 5.14 所 示 。 对 于 顺序 训练 
算法 ， 可 以 这 样 做 : 在 模型 观测 到 输入 模式 之 前 ， 对 每 个 输入 模式 进行 变换 ， 从 而 使 得 如 果 模 
式 被 循环 处 理 ， 那 么 每 次 都 会 接收 到 一 个 不 同 的 变换 (从 一 个 适当 的 概率 分 布 中 抽取 ) 。 对 于 
批 处 理 方法 ， 可 以 将 每 个 数据 点 复制 多 次 ， 然 后 独立 地 变换 每 个 副本 ， 这 样 可 以 产生 类 似 的 效 
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图 5.14: 对 手写 数字 进行 人 工 形变 的 说 明 。 原 始 图 像 见 左 图 。 在 右 图 中 ， 上 面 一 行 给 出 了 三 个 经 过 了 形 
变 的 数字 ， 对 应 的 位 移 场 在 下 面 一 行 给 出 。 这 些 位 移 场 按照 下 面 的 方法 生成 : 在 每 个 像素 处 ， 对 唯 
一 Az,Ay E (0,1) 进 行 随机 取样 ， 然 后 分 别 与 宽度 为 0.01,30,60 的 高 斯 分 布 做 卷 积 ， 进 行 平滑 。 


2 





图 5.15: 二 维 输入 空间 的 例子 ， 展 示 了 在 一 个 特定 的 输入 向 量 zn" 上 的 连续 变换 的 效果 。 一 个 参数 为 连续 
变量 6 的 一 维 变换 作用 于 zn, 上 会 使 它 扫 过 一 个 一 维 流 形 人 MM。 局 部 来 看 ， 变 换 的 效果 可 以 用 切 向 量 7 来 近 
似 。 


果 。 使 用 这 些 扩展 后 的 数据 可 以 大 幅 提 升 泛 化 能 力 (Simard et al., 2003) ， 虽 然 计算 开销 比较 


大 。 

方法 2 保持 了 数据 集 的 不 变性 ， 而 是 给 误差 国 数 增加 了 一 个 正则 化 项 。 在 5.5.5 节 ， 我 们 会 看 
到 方法 1 与 方法 2 关系 密切 。 

方法 3 的 一 个 优点 是 ， 对 于 训练 集 里 没有 包含 的 变换 ， 它 可 以 正确 地 进行 外 插 。 然 而 ， 找 到 
te A A i i 0 0 
很 有 帮助 的 信息 。 


5.5.4 ”切线 传播 


通过 切线 传播 (tangent propagation) 的 方法 ， 我 们 可 以 使 用 正则 化 来 让 模型 对 于 输入 的 变换 
具有 不 变性 〈Simard et al., 1992) 。 对 于 一 个 特定 的 输入 向 量 zn， 考 虑 变换 产生 的 效果 。 假 设 
变换 是 连续 的 〈 例 如 平移 或 者 旋转 ， 而 不 是 镜像 翻转 ) ， 那 么 变换 的 模式 会 扫 过 D 维 输入 空间 
的 一 个 流 形 M。 图 5.15 说 明了 D = 2 的 情形 。 假 设 变换 由 单一 参数 上 控制 〈 例 如 ,可 能 是 旋转 的 
角度 ) 。 那 么 被 zn 扫 过 的 子 空间 MM 是 一 维 的 ， 并 且 以 6 为 参数 。 令 这 个 变换 作用 于 zn 上 产生 的 
向 量 为 s(xn,€)， 且 s(x,0) = x。 这 样 曲线 M 的 切线 就 由 方向 导数 7 = 器 给 出 ， 且 点 zn 处 的 切 
线 向 量 为 


5 Os(zn, é€) (5.125) 
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图 5.16: (@) 原 始 的 手写 数字 xz，(b) 对 应 于 无 穷 小 顺 时 针 旋 转 的 切 向 量 "， 其 中 蓝 色 和 黄色 分 别 对 应 于 正 值 
和 人 负 值 ，(O 将 来 自 这 个 切 向 量 的 微小 页 献 作 用 于 原始 图 像 的 结果 ， 得 到 了 Zz 十 cer， 其 中 e = 15 度 。(d) 真 
实 的 图 像 旋 转 ， 用 作对 比 。 


对 于 输入 向 量 进行 变换 之 后 ， 网 络 的 输出 通常 会 发 生变 化 。 输 出 关于 8 的 导数 为 











万 
= 兢 (5.120) 
一 0 2 一 | 





£=0 i=1 
其 中 .i 为 Jacobian 和 矩阵 J 了 的 第 (%, 引 个 元 素 ， 正 如 5.3.4 节 讨论 的 那样 。 公 式 (5.126) 给 出 的 结果 可 
以 用 于 修改 标准 的 误差 函数 ， 使 得 在 数据 点 的 邻 域 之 内 具有 不 变性 。 修 改 的 方法 为 : 给 原始 的 
误差 函数 加 增加 一 个 正则 化 函数 0， 得 到 下 面 形式 的 误差 浮 数 

E=E+AM (5.127) 
其 中 和 是 正则 化 系数 ， 且 


2 2 
1 Oynxk 2 1 a on 


当 网 络 映射 函数 在 每 个 模式 向 量 的 邻 域内 具有 变换 不 变性 时 ， 正 则 化 函数 等 于 零 。 和 的 值 确 定 了 
训练 数据 和 学 习 不 变性 之 间 的 平衡 。 

在 实际 执行 过 程 中 ， 切 线 向 量 r* 可 以 使 用 有 限 差 近似 ， 即 将 原始 向 量 zn 从 使 用 了 小 的 :进行 
变换 后 的 对 应 的 向 量 中 减 去 ， 再 除 以 5。 图 5.16 说 明了 这 个 过 程 。 

正则 化 函数 通过 Jacobian 和 矩阵 J 对 网 络 的 权 值 产生 依赖 。 通 过 对 5.3 节 中 讨论 的 方法 进行 推 
广 ， 计 算 正则 化 项 关于 网 络 权 值 的 导数 的 反 向 传播 公式 可 以 很 容易 地 得 到 。 

如 果 变 换 由 工 个 参数 控制 〈 例 如 ， 对 于 二 维 图 像 的 平移 变换 与 面 内 旋转 变换 项 结合 ) ， 那 么 
流 形 M 的 维度 为 L， 对 应 的 正则 化 项 由 形 如 公式 (5.128) 的 项 求 和 得 到 ， 每 个 变换 都 对 应 求 和 
式 中 的 一 项 。 如 果 同 时 考虑 若干 个 变换 ， 并 且 让 网 络 映 射 对 于 每 个 变换 分 别 具 有 不 变性 ， 那 么 
对 于 变换 的 组 合 来 说 就 会 具有 (局 部 ) 不 变性 (Simard etal., 1992) 。 

一 个 相关 的 技术 ， 被 称 为 切线 距离 (tangent distance) ， 可 以 用 来 构造 基于 距离 的 方法 ( 例 
如 最 近邻 分 类 右 ) 的 不 变性 (Simard et al., 1993) 。 
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5.5.5 用 变换 后 的 数据 训练 


我 们 已 经 看 到 ， 让 模型 对 于 一 组 变换 具有 不 变性 的 一 种 方法 是 使 用 原始 输入 模式 的 变换 后 的 
模式 来 扩展 训练 集 。 这 里 ， 我 们 会 说 明 ， 这 种 方法 与 切线 传播 的 方法 密切 相关 (Bishop, 1995b; 
Leen, 1995) 。 

与 5.5.4 节 一 样 ， 我 们 要 考虑 由 单一 参数 E 控 制 的 变换 ， 且 这 个 变换 由 函数 s(x,é) 描 述 ， 其 
中 s(x,0) = x。 我 们 也 会 考虑 平方 和 误差 函数 。 对 于 未 经 过 变换 的 输入 ,误差 函 数 可 以 写成 
(在 无 限 数 据 集 的 极限 情况 下 ) 


一 二 i/ {y(z) —t}2p(t | zz)p(z) dz dt (5.129) 


正如 1.5.5 节 讨论 的 那样 。 这 里 ， 为 了 保持 记号 的 简洁 ， 我 们 考虑 有 一 个 输出 单元 的 网 络 。 如 果 
我 们 现在 考虑 每 个 数据 点 的 无 穷 多 个 副本 ， 每 个 副本 都 由 一 个 变换 施加 了 扰动 ， 这 个 变换 的 参 
数 为 <， 且 服从 概率 分 布 p(&)， 那 么 在 这 个 扩展 的 误差 函数 上 定义 的 误差 函数 可 以 写成 


B=3 {|| {ws(e,0) -tp | a)p(a)pe) du dt a (5.130) 
我 们 现在 假设 分 布 pf) 的 均值 为 零 ， 方差 很 小 ， 即 我 们 只 考虑 对 原始 输入 向 量 的 小 的 变换 。 我 
们 可 以 对 变换 函数 进行 关于 :的 展开 ， 可 得 


£2 0? 


3 Be 十 O(55) 


£=0 





OE 


= w+ér+ 3 + O(E’) 


s(2,€) = a(w,0)+ Red 
é£=0 


其 中 /表示 s(z, 6 关于 6 的 二 阶 导数 在 6 = 0 处 的 值 。 这 使 得 我 们 可 以 展开 模型 函数 ， 可 得 
ylsta,9)=y(ajTErrVyla)+ 王 [rrvy)+rrvvyajrl + Oe) 
代入 平均 误差 函数 〔5.130) ， 我 们 有 
B=3 /| {ye) -tp | sple) dw at 
+EI /ba -9rrvyajptlajplo de at 
3/ [ta -frrvoa)+rrvvylor] 


十 (rTvy(z)) jp | z)p(z) dz dt + O(€3) 









































由 于 变换 的 分 布 的 均值 为 零 ， 因 此 我 们 有 了 [S] = 0。 并 且 ， 我 们 把 E[&?] 记 作 和 。 省 略 O(&°) 项 ， 
这 样 平均 误差 函数 就 变 成 了 








E=E+M\ (5.131) 
其 中 五 是 原始 的 平方 和 误差 ， 正 则 化 项 oO 的 形式 为 














_1 xz)—F Zz 证 人) EF 
Q= | [twee [| ol} {(7) Vy(z) + 7 VVy(z)r} (5.132) 


其 中 我 们 已 经 对 t 进 行 了 积分 。 
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我 们 可 以 进一步 简化 这 个 正则 化 项 ， 如 下 所 述 。 在 1.5.5 节 ， 我 们 已 经 看 到 ， 使 平方 和 误差 函 
数 达 到 最 小 值 的 函数 为 目标 值 { 的 条 件 均 值 E[t | z]。 根 据 公 式 (5.131) ,我 们 看 到 正则 化 的 误差 
函数 等 于 非 正则 化 的 误差 函数 加 上 一 个 O(6) 的 项 ， 因 此 最 小 化 总 误差 函数 的 网 络 函 数 的 形式 为 


























y(z) = Elt | z] + O(é°) (5.133) 
从 而 ， 正则 化 项 中 的 第 一 项 消失 ， 剩 下 的 项 为 
09: 3 | (vue) pe) dz (5.134) 


这 等 价 于 切线 传播 的 正则 化 项 (5.128) 。 
如 果 我 们 考虑 一 个 特殊 情况 ， 即 输入 变量 的 变换 只 是 简单 地 添加 随机 噪声 ， 从 
而 Zz 二 x 十， 那么 正则 化 项 的 形式 为 


1 
0 = 5 / |vy(z)l p(x) dz (5.135) 


这 被 称 为 Tikhonov 正 则 化 (Tikohonov and Arsenin, 1977; Bishop, 1995b) 。 这 个 正则 化 项 关于 网 
络 权 值 的 导数 可 以 使 用 扩展 的 反问 传播 算法 求 出 (Bishop, 1993) 。 我 们 看 到 ， 对 于 小 的 噪 
声 ，Tikhonov 正 则 化 与 对 输入 添加 随机 噪声 有 关系 。 可 以 证 明 ， 在 恰当 的 情况 下 ， 这 种 做 法 会 
提升 模型 的 泛 化 能 力 。 


5.5.6 ” 卷 积 神经 网 络 


另 一 种 构造 对 输入 变量 的 变换 具有 不 变性 的 模型 的 方法 是 将 不 变性 的 性 质 融入 到 神经 网 络 结 
构 的 构建 中 。 这 是 卷 积 神经 网 络 (convolutional neural network) (LeCun et al., 1989; LeCun et 
al., 1998) 的 基础 ， 它 被 广泛 地 应 用 于 图 像 处 理 领 域 。 

考虑 手写 数字 识别 这 个 具体 的 任务 。 每 个 输入 图 像 由 一 组 像素 的 灰 度 值 组 成 ， 输 出 为 10 个 数 
字 类 别 的 后 验 概率 分 布 。 我 们 知道 ， 数 字 的 种 类 对 于 平移 、 缩 放 以 及 (微小 的 ) 旋转 具有 不 变 
性 。 此 外 ， 网 络 还 必须 对 一 些 更 微妙 的 变换 具有 不 变性 ， 例 如 图 5.14 所 示 的 弹性 形变 。 一 种 简单 
的 方法 是 把 图 像 作 为 一 个 完全 链接 的 神经 网 络 的 输入 ， 例 如 图 5.1 所 示 的 网 络 。 假 设 数 据 集 充 分 
大 ,那么 这 样 的 网 络 原则 上 可 以 产生 这 个 问题 的 一 个 较 好 的 解 ， 从 而 可 以 从 样本 中 学 习 到 恰当 
的 不 变性 。 

然而 ， 这 种 方法 忽略 了 图 像 的 一 个 关键 性 质 ， 即 距离 较 近 的 像素 的 相关 性 要 远大 于 距离 较 远 
的 像素 的 相关 性 。 计 算 机 视觉 领域 中 ， 许 多 现代 的 方法 通过 抽取 只 依赖 于 图 像 里 小 的 子 区 域 的 
局 部 特征 的 方式 利用 这 个 性 质 。 之 后 ， 来 自 这 些 特 征 的 信息 就 可 以 融合 到 后 续 处 理 阶 段 中 ， 来 
检测 更 高 级 的 特征 ， 最 后 产生 图 像 整体 的 信息 。 并 且 ， 对 于 图 像 的 一 个 区 域 有 用 的 局 部 特征 可 
能 对 于 图 像 的 其 他 区 域 也 有 用 ， 例 如 感 兴趣 的 物体 发 生平 移 的 情形 。 

这 些 想 法 被 整合 到 了 卷 积 神经 网 络 中 ， 通 过 下 面 三 种 方式 : (1) 局 部 接收 场 ， (2) 权 值 共 
享 ， (3) 下 采样 。 卷 积 网 络 的 结构 如 图 5.17 所 示 。 在 卷 积 层 ， 各 个 单元 被 组 织 在 一 系列 平面 
中 ， 每 个 平面 被 称 为 一 个 特征 地 图 (feature map) 。 一 个 特征 地 图 中 的 每 个 单元 只 从 图 像 的 一 
个 小 的 子 区 域 接收 输入 ， 且 一 个 特征 地 图 中 的 所 有 单元 被 限制 为 共享 相同 的 权 值 。 例 如 ， 一 个 
特征 地 图 可 能 由 100 个 单元 组 成 ， 这 些 单元 被 放 在 了 10 x 10 的 网 格 中 ， 每 个 单元 从 图 像 的 一 
个 5 x 5 的 像素 块 接收 输入 。 于 是 ， 整 个 特征 地 图 就 有 25 个 可 调节 的 参数 ， 加 上 一 个 可 调节 的 偏 
置 参数 。 来 自 一 个 像素 块 的 输入 值 被 权 值 和 偏 置 进 行 线 性 组 合 ， 线 性 组 合 的 结果 通过 公式 

(5.1) 给 出 的 S 形 非 线性 函数 进行 变换 。 如 果 我 们 把 每 个 单元 想象 成 特征 检测 器 ， 那 么 特征 地 
图 中 的 所 有 单元 都 检测 了 输入 图 像 中 的 相同 的 模式 ， 但 是 位 置 不 同 。 由 于 权 值 共享 ， 这 些 单元 
的 激活 的 计算 等 价 于 使 用 一 个 由 权 向 量 组 成 和 核对 图 像 像素 的 灰 度 值 进 行 卷 积 。 如 果 输 入 图 
像 发 生平 移 ， 那 么 特征 地 图 的 激活 也 会 发 生 等 量 的 平移 ， 否 则 就 不 发 生 改 变 。 这 提供 了 神经 网 
络 输 出 对 于 输入 图 像 的 平移 和 变形 的 (近似 ) 不 变性 的 基础 。 由 于 我 们 通常 需要 检测 多 个 特征 
ee ei i a 














卷 积 单元 的 输出 构成 了 网 络 的 下 采样 层 的 输入 。 对 于 卷 积 层 的 每 个 特征 地 图 ， 有 一 个 下 采样 
层 的 单元 组 成 的 平面 ， 并 且 下 采样 层 的 每 个 单元 从 对 应 的 卷 积 层 的 特征 地 图 中 的 一 个 小 的 接收 
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Sub-sampling 
layer 


Input image Convolutional layer 





图 5.17: 卷 积 神经 网 络 的 一 个 例子 ， 给 出 了 一 层 卷 积 单元 层 跟 着 一 个 下 采样 单元 层 。 可 能 连续 使 用 这 种 层 
对 。 


场 接收 输入 。 这 些 单元 完成 了 下 采样 。 例 如 ， 每 个 下 采样 单元 可 能 从 对 应 的 特征 地 图 中 的 一 
个 2 x 2 单元 的 区 域 中 接收 输入 ， 然 后 计算 这 些 输入 的 平均 值 ， 乘 以 一 个 可 调节 的 权 值 和 可 调节 
的 偏 置 参数 ， 然 后 使 用 S 形 非 线 性 激活 函数 进行 变换 。 选 择 的 接收 场 是 连续 的 、 非 重 盔 的 ， 从 而 
下 采样 层 的 行 数 和 列 数 都 是 卷 积 层 的 一 半 。 使 用 这 种 方式 ， 下 采样 层 的 单元 的 响应 对 于 对 应 的 
输入 空间 区 域 中 的 图 片 的 微小 平移 相对 不 敏感 。 

在 实际 构造 中 ， 可 能 有 若干 对 卷 积 层 和 下 采样 层 。 在 每 个 阶段 ， 与 前 一 层 相 比 ， 都 会 有 一 个 
更 高 层次 的 关于 输入 变换 的 不 变性 。 在 一 个 给 定 的 卷 积 层 中 ， 对 于 每 个 由 前 一 个 下 采样 层 的 单 
元 构成 的 平面 ， 可 能 存在 若干 个 特征 地 图 ， 从 而 空间 分 辨 率 的 逐 层 减 小 就 可 以 通过 增加 特征 的 
数量 进行 补偿 。 网 络 的 最 后 一 层 通 常 是 完全 连接 的 ， 是 一 个 完全 可 调节 的 层 。 在 多 分 类 问题 
中 ， 输 出 层 使 用 的 是 softmax 非 线性 函数 。 

整个 网 络 可 以 使 用 误差 函数 最 小 化 的 方法 计算 。 误 差 函 数 梯度 的 计算 可 以 使 用 反 疝 传播 算 
法 。 这 需要 对 通常 的 反 向 传播 算法 进行 微小 的 修改 ,确保 共享 权 值 的 限制 能 够 满足 。 由 于 使 用 
局 部 接收 场 ， 网 络 中 权 值 的 数量 要 小 于 完全 连接 的 网 络 的 权 值 数量 。 此 外 ， 由 于 权 值 的 本 质数 
量 的 限制 ， 需 要 从 训练 数据 中 学 习 到 的 独立 参数 的 数量 仍然 相当 小 。 











5.5.7 ” 软 权 值 共享 


降低 具有 大 量 权 值 参数 的 网 络 复杂 度 的 一 种 方法 是 将 权 值 分 组 ， 然 后 令 分 组 内 的 权 值 相 等 。 
这 是 图 5.5.6 中 讨论 的 权 值 共享 的 方法 ， 这 种 方法 将 网 络 对 于 图 像 的 平移 不 变性 整合 到 网 络 的 构 
建 过 程 中 。 然 而 ， 它 只 适用 于 限制 的 形式 可 以 事先 确定 的 问题 中 。 这 里 ， 我 们 考虑 软 权 值 共享 
(soft weight sharing) (Nowlan and Hinton, 1992) 。 这 种 方法 中 ， 权 值 相 等 的 硬 限制 被 替换 为 
一 种 形式 的 正则 化 ， 其 中 权 值 的 分 组 倾向 于 取 近 似 的 值 。 此 外 ， 权 值 的 分 组 、 每 组 权 值 的 均 
值 ， 以 及 分 组 内 的 取 值 范围 全 都 作为 学 习 过 程 的 一 部 分 被 确定 。 

回忆 一 下 ,公式 (5.112) 给 出 的 简单 的 权 值 衰减 正则 化 项 可 以 被 看 成 权 值 上 的 高 斯 分 布 的 
负 对 数 。 我 们 可 以 将 权 值 分 为 若干 组 ， 而 不 是 将 所 有 权 值 分 为 一 个 组 。 分 组 的 方法 是 使 用 高 斯 
混合 概率 分 布 。 混 合 分 布 中 ， 每 个 高 斯 分 量 的 均值 、 方 差 ， 以 及 混合 系数 ， 都 会 作为 可 调节 的 
参数 在 学 习 过 程 中 被 确定 。 于 是 ， 我 们 有 下 面 形式 的 概率 密度 


p(w) = lI p(wi) (5.130) 
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卫 


M 
(wi) = > njN (wi | p09) (5.137) 


7 为 混合 系数 。 取 负 对 数 ， a 形式 为 


M 
0 (Bre | (5.138) 
1 j=1 
从 而 ,总 的 误差 函数 为 
E(w) = E(w) + MN(w) (5.139) 


其 中 ， 和 是 正则 化 系数 。 这 个 误差 函数 同时 关于 权 值 w; 和 混合 模型 参数 {tj, 1j, 0;} 进 行 最 小 化 。 
如 果 权 值 是 常数 ， 那 么 混合 模型 的 参数 可 以 由 第 9 章 讨论 的 EM 算法 确定 。 然 而 ， 权 值 分 布 本 身 
在 学 习 过 程 中 是 不 断 变化 的 ， 因 此 为 了 避免 数值 的 不 稳定 性 ， 我 们 同时 关于 权 值 和 混合 模型 参 
数 进行 最 优化 。 可 以 使 用 标准 的 最 优化 算法 (例如 共 轿 梯度 法 或 拟 牛 顿 法 ) 来 完成 这 件 事 。 

为 了 最 小 化 总 的 误差 函数 ， 能 够 计算 出 它 关 于 各 个 可 调节 参数 的 导数 是 很 有 必要 的 。 为 了 
完成 这 一 点 ， 比 较 方 便 的 做 法 是 把 {r} 当 成 先 验 概 率 ， 然 后 引入 对 应 的 后 验 概率 。 根 据 公式 
(2.192) ， 后 验 概 率 由 贝 叶 斯 定理 给 出 ， 形 式 为 


TiN (w | p307) 








= 5.140 
lw) Dx TaN (WO | px, oF) 0 
这 样 ， 总 的 误差 函数 关于 权 值 的 导数 为 
OS 
Ba + * 2 (wi) 可 1) (5.141) 





于 是 ， 正 则 化 项 的 效果 是 把 每 个 权 值 拉 向 第 ;个 高 斯 分 布 的 中 心 ， 拉 力 正比 于 对 于 给 定 权 值 的 高 
斯 分 布 的 后 验 概率 。 这 恰好 就 是 我 们 要 寻找 的 效果 。 
误差 函数 关于 高 斯 分 布 的 中 心 的 导数 也 很 容易 计算 ， 结 果 为 


(1 — wi) 
一 一 一 入 Yj (wi) (5.142) 
0 一 


它 具 有 简单 的 直观 含义 ， 因 为 它 把 必 拉 向 了 权 值 的 平均 值 ， 拉 力 为 第 7 个 高 斯 分 量 产生 的 权 值 参 
数 的 后 验 概率 。 类 似 地 ， 关 于 方差 的 导数 为 


oF a | | 1 (wi Fe 0;)> 
二 2 (wi) (3 3 ) (5.143) 


了 





它 将 oj 拉 向 权 值 在 对 应 的 中 心 必 附近 的 偏差 的 平方 的 加 权 平 均 ， 加 权 平 均 的 权 系 数 与 之 前 一 
样 ， 等 于 由 第 7 个 高 斯 分 量 产生 的 权 值 参数 的 后 验 概率 。 注 意 ， 在 实际 执行 过 程 中 ， 我 们 会 引入 
一 个 新 的 变量 £&;} ， 它 由 下 式 定义 。 

oO7 = exp(é;) (5.144) 


并 且 ， 最 小 化 的 过 程 是 关于 6 进行 的 。 这 确保 了 参数 oj; 是正 数 。 此 外 ， 它 还 能 够 倾向 于 避免 找 
到 病态 解 ， 即 一 个 或 者 多 个 0; 趋 于 零 ， 对 应 于 一 个 高 斯 分 量 退 化 为 一 个 权 参 数 的 值 。9.2.1 节 会 
在 高 斯 混合 模型 的 问题 中 详细 讨论 这 样 的 解 。 

对 于 关于 混合 系数 7 的 导数 ， 我 们 需要 考虑 下 面 的 限制 条 件 


> Ue (5.145) 
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Es (x1, x2) 


02 


Ly 


01 





图 5.18: 左 图 给 展示 了 一 个 具有 两 个 连接 的 机 械 辟 ， 其 中 ， 末 端的 笛 卡 尔 坐 标 (x1,7x2) 由 两 个 连接 
角 0 和 0 以 及 机 械 臂 的 (固定 ) 长 度 L1 和 Lz 唯一 确定 。 这 被 称 为 机 械 辟 的 正 向 运动 学 (forward 
kinematics) 。 在 实际 应 用 中 ， 我 们 必须 寻找 给 出 所 需 的 末端 位 置 的 连接 角 ， 如 右 图 所 示 。 这 个 逆向 运动 
学 (inverse kinematics) 有 两 个 对 应 的 解 ， 即 “ 肘 部 向 上 "和 “ 肘 部 向 下 ”。 


这 个 限制 的 产生 ， 是 因为 我 们 把 nj; 看 成 了 先 验 概率 。 可 以 这 样 做 : 将 混合 系数 通过 一 组 辅助 变 
量 {m;} 用 softmax 函 数 表示 ， 即 本 
三 = (5.140) 
3 exp (nx) 
这 样 ， 正 则 化 的 误差 函数 关于 {nj} 的 导数 的 形式 为 
oF 
人 > — Yj(wi)} (5.147) 


2 


4 








我 们 看 到 ，7tj 被 拉 向 第 ;个 高 斯 分 量 的 平均 后 验 概率 。 


5.6 ”混合 密度 网 络 


有 监督 学 习 的 目标 是 对 条 件 概 率 分 布 p(t | z) 建 模 。 对 于 许多 简单 的 回归 问题 来 说 ， 这 个 分 
布 都 被 选 为 高 斯 分 布 。 然 而 ， 实 际 的 机 器 学 习 问 题 中 ， 经 常会 遇 到 与 高 斯 分 布 差别 相当 大 的 概 
率 分 布 。 例 如 ， 在 逆 问 题 (inverse problem) 中 ， 概 率 分 布 可 以 是 多 峰 的 ， 这 种 情况 下 ， 高 斯 分 
布 的 假设 就 会 产生 相当 差 的 预测 结果 。 

作为 逆 问 题 的 一 个 简单 的 例子 ， 考虑 机 械 臂 的 运动 学 问题 ， 如 图 5.18 所 示 。 正 向 问题 
(forward problem) 是 在 给 定 连 接 角 的 情况 下 求解 机 械 臂 末端 的 位 置 ， 这 个 问题 有 唯一 解 。 然 
而 ， 在 实际 应 用 中 ， 我 们 想 把 机 械 辟 末端 移动 到 一 个 具体 的 位 置 。 为 了 完成 移动 ， 我 们 必须 设 
定 合适 的 连接 角 。 于 是 ， 我 们 需要 求解 逆 问 题 ， 它 有 两 个 解 ， 如 图 5.18 所 示 。 

正 向 问题 通常 对 应 于 物理 系统 的 因果 关系 ,通常 有 了 唯一 解 。 例 如 ， 人 体 的 某 个 具体 的 症状 是 
由 于 特定 的 疾病 造成 的 。 然 而 在 模式 识别 中 ， 我 们 通常 不 得 不 求解 逆 问 题 ， 例 如 在 给 定 症 状 的 
情况 下 ， 推 断 疾 病 的 种 类 。 如 果 正 向 问题 涉及 到 多 对 一 的 映射 ， 那么 道 问题 就 会 有 多 个 解 。 例 
如 ， 多 种 不 同 的 疾病 可 能 会 导致 相同 的 症状 。 

在 机 械 臂 的 例子 中 ， 运 动 由 几何 方程 定义 ， 多 峰 的 性 质 是 显然 的 。 然 而 ， 在 许多 机 器 学 习 问 
题 中 ， 尤 其 是 涉及 到 高 维 空间 的 问题 中 ， 多 峰 性 质 的 存在 并 不 显然 。 但 是 ， 为 了 教学 的 目的 ， 
我 们 会 考虑 一 个 相当 简单 的 问题 ， 这 个 问题 中 我 们 可 以 很 容易 地 看 出 多 峰 性 质 。 这 个 问题 的 数 
据 的 生成 方式 为 : 对 服从 区 间 (0, 1) 的 均匀 分 布 的 变量 x 进行 取样 ， 得 到 一 组 值 {zn}， 对 应 的 目 
标 值 刀 通过 下 面 的 方式 得 到 : 计算 函数 zw 十 0.3sin(2xxn)， 然 后 添加 一 个 服从 (一 0.1,0.1) 上 的 均 
匀 分 布 的 噪声 。 这 样 ， 逆 问题 就 可 以 这 样 得 到 : 使 用 相同 的 数据 点 ， 但 是 交换 z 和 t 的 角色 。 图 
5.19 给 出 了 正 向 问题 和 逆 问 题 的 数据 集 ， 以 及 一 个 两 层 神经 网 络 给 出 的 结果 。 这 个 两 层 的 神经 网 
络 有 6 个 隐 含 单元 ， 一 个 线性 输出 单元 ， 误 差 函 数 为 平方 和 误差 函数 。 在 高 斯 分 布 的 假设 下 ， 最 
en 
模型 非常 差 。 

于 是 ， 我 们 寻找 一 个 对 条 件 概率 密度 建 模 的 一 般 的 框架 。 可 以 这 样 做 : 为 p(t | x) 使 用 一 个 
混合 模型 ， 模 型 的 混合 系数 和 每 个 分 量 的 概率 分 布 都 是 输入 向 量 z 的 一 个 比较 灵活 的 函数 ， 这 
就 构成 了 混合 密度 网 络 (mixture density network) 。 对 于 任意 给 定 的 zx 值 ， 混 合 模型 提供 了 一 个 
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图 5.19: 左 图 是 一 个 简单 的 正 向 问题 的 数据 集 ， 其 中 红色 曲线 给 出 了 通过 最 小 化 平方 和 误差 函数 调节 一 
个 两 层 神经 网 络 的 结果 。 对 应 的 逆 问 题 ， 如 右 图 所 示 ， 通 过 交换 z 和 t 的 顺序 的 方式 得 到 。 这 里 ， 通 过 最 
小 化 平方 和 误差 函数 的 方式 训练 的 神经 网 络 给 出 了 对 数据 的 非常 差 的 拟 合 ， 因 为 数据 集 是 多 峰 的 。 





t 


图 5.20: 混合 密度 网 络 (mixture density network) 可 以 表示 一 般 的 条 件 概 率 密度 p(t | xz)， 方法 为 : 考 
虚 t 的 一 个 参数 化 的 混合 模型 ， 它 的 参数 由 以 z 为 输入 的 神经 网 络 的 输出 确定 。 


通用 的 形式 ， 用 来 对 任意 条 件 概率 密度 函数 p(t | xz) 进 行 建 模 。 假 设 我 们 考虑 一 个 足够 灵活 的 网 
络 ， 那么 我 们 就 有 了 一 个 近似 任意 条 件 概 率 分 布 的 框架 。 
这 里 ， 我 们 显 式 地 令 模 型 的 分 量 为 高 斯 分 布 ， 即 


p(t | z) = 三 na N(t | p(x),o2 (zx)T) (5.148) 


这 是 异 方差 模型 (heteroscedastic model) 的 一 个 例子 ， 因 为 数据 中 的 噪声 方差 是 输入 向 量 z 的 一 
个 函数 。 我 们 也 可 以 使 用 高 斯 分 布 以 外 的 其 他 分 布 ， 例 如 ， 如 果 目 标 变量 是 二 值 的 而 不 是 连续 
的 ， 我 们 就 可 以 使 用 伯 努 利 分 布 。 我 们 已 经 把 情况 具体 到 了 各 向 同性 的 协 方差 的 情形 ， 虽 然 可 
以 通过 使 用 Cholesky 分 解 (Williams, 1996) 表示 协 方差 的 方式 ， 将 混合 密度 网 络 扩 展 到 可 以 处 
理 更 一 般 的 协 方差 的 情形 。 即 使 每 个 分 量 的 方差 是 各 向 同性 的 ， 但 是 我 们 仍然 不 能 假设 条 件 概 
率 分 布 p(t | z) 能 够 关于 t 的 分 量 进行 分 解 (这 与 标准 的 平方 和 回归 模型 不 同 ) ， 这 是 由 于 概率 分 


布 是 一 个 混合 分 


我 们 现在 为 混合 模型 取 各 种 不 同 的 参数 ， 这 些 参数 包括 混合 系数 灰 (z)、 均 值 r(z) 以 及 方 
差 cg(z)， 这 些 参数 控制 了 以 z 作 为 输入 的 神经 网 络 的 输出 。 这 个 混合 密度 网 络 的 结构 如 图 5.20 
所 示 。 混 合 密度 网 络 与 14.5.3 节 讨论 的 混合 专家 的 关系 十 分 紧密 。 主 要 的 区 别 是 ， 混 合 密度 网 络 
使 用 相同 的 函数 来 预测 所 有 分 量 概率 分 布 的 参数 以 及 混合 参数 ， 因 此 非 线性 隐 含 单元 被 依赖 于 
输入 的 函数 所 共享 。 

图 5.20 所 示 的 神经 网 络 可 以 是 一 个 两 层 的 网 络 ， 网 络 具 有 S 形 〈 双 曲 正 切 ) 隐 含 单元 。 如 
果 混 合 模型 (5.148) 中 有 KK 个 分 量 ， 且 t 有 LL 个 分 量 ， 那么 况 络 就 会 有 六 个 答 出 单 郊 激 括 ”( 
作 ax) 确定 混合 系数 Tetz)j， 有 五 个 输出 〈 记 作 of) 确定 核 宽 度 ok(z)， 有 五 x 工 个 输出 〈 记 
作 a%;) 确定 核 中 心 jx(z) 的 分 量 1kj(X)。 网 络 输出 的 总 数 为 (ZL 十 2)K ， 这 与 通常 的 网 络 的 L 个 输 
出 不 同 。 通 常 的 网 络 只 是 简单 地 预测 目标 变量 的 条 件 均值。 
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混合 系数 必须 满足 下 面 的 限制 。 
K 
Smt) = 0 过 次 的 过 1 (5.149) 
k=1 
可 以 通过 使 用 一 组 softmax 输 出 来 实现 。 


Tk(Z) = E 
> exp(ay ) 


类 似 地 ， 方 差 必须 满足 of(z) > 0， 因 此 可 以 使 用 对 应 的 网 络 激活 的 指数 形式 表示 ， 即 
mx(z) = exp(a®) (5.151) 
最 后 ， 由 于 均值 Jw.(x) 有 实数 分 量 ， 因 此 它们 可 以 直接 用 网 络 的 输出 激活 表示 
HAkj(Z) = ah (5.152) 
混合 密度 网 络 的 可 调节 参数 由 权 向 量 w 和 偏 置 组 成 。 这 些 参数 可 以 通过 最 大 似 然 法 确定 ,或 


者 等 价 地 ， 使 用 最 小 化 误差 函数 〈 负 对 数 似 然 函 数 ) 的 方法 确定 。 对 于 独立 的 数据 ， 误 差 函 数 
的 形式 为 


(5.150) 


n=1 


N K 
E(w)=— >_In {> Nk (Fn, WN (tn | mon welen wD)| (5.153) 
k=1 





其 中 ,我 们 显 式 地 写 出 了 误差 浮 数 对 于 ww 的 依赖 。 

为 了 最 小 化 误差 函数 ,我们 需要 计算 误差 函数 马 (w) 关 于 ww 的 分 量 的 导数 。 如 果 我 们 得 到 了 
误差 函数 关于 输出 单元 激活 的 导数 的 表达 式 ， 那 么 我 们 就 可 以 通过 标准 的 反 向 传播 方法 来 计算 
误差 函数 关于 ww 的 分 量 的 导数 。 误 差 函 数 关 于 输出 单元 激活 的 导数 代表 了 每 个 模式 和 每 个 输出 
单元 的 误差 信号 s， 并 且 可 以 反 向 传播 到 隐 含 单元 ， 从 而 误差 函数 的 导数 可 以 按照 通常 的 方式 进 
行 计算 。 由 于 误差 函数 (5.153) 由 一 组 项 的 求 和 式 构 成 ， 每 一 项 都 对 应 一 个 训练 数据 点 ， 因 此 
我 们 可 以 考虑 对 于 特定 的 模式 "的 导数 ， 然 后 通过 求 和 的 方式 找到 五 的 导数 。 

由 于 我 们 处 理 的 是 混合 概率 分 布 ， 因 此 比较 方便 的 做 法 是 把 混合 系数 六 (z) 看 成 与 z 相 关 的 
先 验 概率 分 布 ， 从 而 就 引入 了 对 应 的 后 验 概率 ， 形 式 为 








TAN 
nk = Y(tn | Znh) 一 二 PR 5.154 
Ynk = Yeltn | Zn) FE ANa ( ) 
关于 控制 混合 系数 的 网 络 输出 激活 的 导数 为 
2 ee (5.155) 
k 
类 似 地 ， 关 于 控制 分 量 均 值 的 网 络 输出 激活 的 导数 为 
OEn HEl — tn 
Da Yk 人 } (5.156) 
最 后 ， 关 于 控制 分 量 方差 的 网 络 激活 函数 为 
DOP， | 如 一 4 
Be Ynk 已 三 于 -| (5.157) 


我 们 回 到 图 5.19 所 示 的 逆 问 题 的 简单 例子 ， 来 说 明 混合 密度 网 络 的 应 用 。 图 5.21 给 出 了 混 
合 系 数 T(T)、 均 值 w(z) 和 对 应 于 p(t | x) 的 条 件 概 率 轮廓 线 。 神 经 网 络 的 输出 ， 即 混合 模型 


195 
wwaibbt.com DODDDODODOD 


























Des 
一 
3 
一 


(a) (b) 
































(0) (d) 


图 5.21: (@) 对 于 使 用 图 5.19 给 出 的 数据 训练 的 混合 密度 网 络 的 三 个 核 浮 数 ， 混 合 系数 mk(7) 与 的 函数 关系 
图 像 。 模 型 有 三 个 高 斯 分 量 ， 使 用 了 一 个 多 层 感 知 器 ， 在 隐 含 层 有 五 个 tanh 单元 ， 同 时 有 9 个 输出 单元 
(对 应 于 高 斯 分 量 的 3 个 均值 、3 个 方差 以 及 3 个 混合 系数 ) 。 在 较 小 的 z 值 和 较 大 的 z 值 处 ， 目 标 数据 的 条 
件 概 率 密度 是 单 峰 的 ， 对 于 它 的 先 验 概率 分 布 ， 只 有 一 个 核 具 有 最 大 的 值 。 而 在 中 间 的 z 值 处 ， 条 件 概率 
分 布 具有 3 个 峰 ，3 个 混合 系数 具有 可 比 的 值 。(b) 使 用 与 混合 系数 相同 的 颜色 表示 方法 来 表示 均值 We(z)。 
| 人 网 络 ， 目 标 数据 的 条 件 概率 密度 的 图 像 。(d 条 件 概率 密度 的 近似 条 件 峰 值 的 图 
， 用 红色 点 表示 。 
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的 参数 ， 是 输入 变量 的 连续 单 值 函数 。 然 而 ， 从 图 5.21(@ 中 我 们 可 以 看 到 ， 通 过 调整 混合 分 
量 rkx(z) 的 大 小 ， 模 型 能 够 产生 一 个 对 于 某 些 z 是 单 峰 的 ， 对 于 其 他 z 值 是 多 峰 的 概率 分 布 。 

一 旦 混合 密度 网 络 训 练 结束 ， 他 就 可 以 预测 对 于 任意 给 定 的 输入 向 量 的 目标 数据 的 条 件 密度 
函数 。 只 要 我 们 关注 的 是 预测 输出 向 量 的 值 的 问题 ， 那 么 这 个 条 件 概率 密度 就 能 完整 地 描述 用 
于 生成 数据 的 概率 分 布 。 根 据 这 个 概率 密度 函数 ， 我 们 可 以 计算 不 同 应 用 中 我 们 感 兴趣 的 更 加 
具体 的 量 。 一 个 最 简单 的 量 就 是 目标 数据 的 条 件 均 值 ， 即 














KkK 
Elt | z] = fmt |z) dt = >》 nr(z) pn (7) (5.158) 
k=1 


其 中 我 们 使 用 了 公式 (5.148) 。 由 于 使 用 最 小 平方 方法 训练 的 标准 的 神经 网 络 近 似 了 条 件 均 
值 ， 因 此 我 们 看 到 一 个 混合 密度 网 络 可 以 复制 传统 的 最 小 平方 的 结果 ， 作 为 一 个 特例 。 当 然 ， 
正如 我 们 已 经 注意 到 的 那样 ， 对 于 一 个 多 峰 分 布 ， 条 件 均值 是 一 个 受 限 的 值 。 

类 似 地 ， 我 们 可 以 利用 条 件 均 值 的 结果 ,计算 密 度 函 数 的 方差 ， 结 果 为 


s(x) = ElNt — Elt| zl | 2 (5.159) 


K 2 
> (i 十 | (5.160) 
k=1 


其 中 我 们 使 用 了 公式 (5.148) 和 “(5.158) 。 这 对 应 的 最 小 平方 结果 相 比 ， 这 个 结果 更 一 般 ， 因 
为 方差 是 x 的 一 个 函数 。 

我 们 已 经 看 到 ， 对 于 多 峰 分 布 ， 用 条 件 均值 描述 数据 的 效果 很 差 。 例 如 ， 在 图 5.18 给 出 的 控 
制 机 械 臂 的 例子 中 ， 我 们 需要 从 两 个 可 能 的 连接 角 中 选 出 一 个 ， 来 得 到 所 需 的 末端 位 置 。 在 这 
种 情况 下 ， 条 件 众 数 可 能 更 有 价值 。 由 于 混合 密度 网 络 的 条 件 众 数 没有 一 个 简单 的 解析 解 ， 因 
此 需要 数值 迷 代 。 一 个 简单 的 禁 代 方法 是 取 每 个 x 对 应 的 最 可 能 分 量 ( 即 具有 最 大 混合 系数 的 
分 量 ) 的 均值 。 对 于 之 前 的 那个 简单 的 例子 ， 图 5.21(d) 给 出 了 这 个 结果 。 
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5.7 贝 叶 斯 神经 网 络 


目前 为 止 ， 我们 对 于 神经 网 络 的 讨论 集中 于 使 用 最 大 似 然 方法 来 确定 网 络 的 参数 ( 权 值 和 偏 
置 ) 。 正 则 化 的 最 大 似 然 方 法 可 以 看 成 MAP (maximum posterior) 方法 ， 其 中 正则 化 项 可 以 被 
看 成 先 验 参数 分 布 的 对 数 。 然 而 ， 在 贝 叶 斯 方法 中 ， 为 了 进行 预测 ， 我 们 需要 对 参数 的 概率 分 
布 进行 积分 或 求 和 。 

在 3.3 节 ， 我 们 研究 了 在 高 斯 噪声 假设 下 的 简单 线性 回归 模型 的 贝 叶 斯 解 。 我 们 看 到 ， 后 验 
概率 分 布 (是 一 个 高 斯 分 布 ) 可 以 精确 计算 ， 并 且 预 测 分 布 也 具有 解析 解 。 在 多 层 神经 网 络 的 
情况 下 ， 网 络 函 数 对 于 参数 值 的 高 度 非 线性 的 性 质 意味 着 精确 的 贝 叶 斯 方法 不 再 可 行 。 事 实 
上 ， 后 验 概率 分 布 的 对 数 是 非 凸 的 ， 对 应 于 误差 函数 中 的 多 个 局 部 极 小 值 。 

第 10 章 将 要 讨论 的 变 分 推断 方法 已 经 被 用 在 了 贝 叶 斯 神经 网 络 中 。 这 种 方法 使 用 了 对 后 验 概 
率 的 分 解 的 高 斯 近似 (Hinton and van Camp, 1993) ， 也 使 用 了 一 个 具有 完成 协 方差 矩阵 的 高 斯 
分 布 (Barber and Bishop, 1998a; Barber and Bishop, 1998b) 。 但 是 ， 最 完整 的 贝 叶 斯 方法 是 基于 
拉 普 拉 斯 近似 的 方法 (MacKay, 1992c; MacKay, 1992b) ， 这 种 方法 构成 了 本 节 讨 论 的 基础 。 我 
们 会 使 用 一 个 以 真实 后 验 概 率 的 众 数 为 中 心 的 高 斯 分 布 来 近似 后 验 概率 分 布 。 此 外 ， 我 们 会 假 
设 这 个 高 斯 分 布 的 协 方差 很 小 ， 从 而 网 络 函数 关于 参数 空间 的 区 域 中 的 参数 近似 是 线性 关系 。 
在 参数 空间 中 ， 后 验 概率 距离 概率 为 零 的 状态 相当 远 。 使 用 这 两 个 近似 ， 我 们 会 得 到 与 之 前 讨 
论 的 线性 回归 和 线性 分 类 的 模型 相 类 似 的 模型 ， 从 而 我 们 就 可 以 利用 之 前 得 到 了 结果 了 。 这 
样 ， 我 们 可 以 使 用 模型 证 据 的 框架 来 对 参数 进行 点 估计 ， 并 且 比 较 不 同 的 模型 (例如 ， 有 着 不 
同 的 隐 含 单元 数量 的 网 络 ) 。 首 先 ， 我 们 讨论 回归 问题 的 情形 ， 然 后 ， 我 们 考虑 进行 必要 的 修 
改 ， 用 来 解决 分 类 问题 。 
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5.7.1 后 验 参 数 分 布 

考虑 从 输入 向 量 z 预 测 单一 连续 目标 变量 :的 问题 (扩展 到 多 个 目标 变量 的 情形 很 容易 ) 。 我 
们 假设 条 件 概率 分 布 ptt | z) 是 一 个 高 斯 分 布 ， 均 值 与 有 关 ， 由 神经 网 络 模型 的 输出 y(x, ww) 确 
定 ， 精 度 (方差 的 倒数 ) 6 为 








p(t | x,2w,6) =N(t|y(z,w), 87) (5.161) 
类 似 地 ， 我 们 将 权 值 ww 的 先 验 概率 分 布 选 为 高 斯 分 布 ， 形 式 为 
p(w | a) =N(w |0,a 7) (5.162) 


对 于 入 次 独立 同 分 布 的 观测 x1,.…. ,zn， 对 应 的 目标 值 集合 D = 全， …tvw}， 似 然 函 数 为 


N 
p(D lw,p)= [Ns wz) B71!) (5.163) 
n=1 
因此 最 终 的 后 验 概率 为 
p(w |D,a,b) x p(w | a)p(D | vw, pb) (5.164) 
由 于 y(z,w) 与 w 的 关系 是 非 线性 的 ， 因 此 后 验 概率 不 是 高 斯 分 布 。 
使 用 拉 普 拉 斯 近似 ， 我 们 可 以 找到 对 于 后 验 概率 分 布 的 一 个 高 斯 近似 。 为 了 完成 这 一 点 ， 我 


们 必须 首先 找到 后 验 概率 分 布 的 一 个 (局 部 ) 最 大 值 ， 这 必须 使 用 迭代 的 数值 最 优化 算法 才能 
找到 。 与 之 前 一 样 ， 比 较 方便 的 做 法 是 最 大 化 后 验 概率 分 布 的 对 数 ， 它 可 以 写成 下 面 的 形式 


N 
a i 
Inp(w | D) = -Fw Ww 一 2 > {y(zn;w) 一 tn} 十 常数 (5.165) 
n=1 


这 对 应 于 一 个 正则 化 的 平方 和 误差 函数 。 假 设 aq 和 6 都 是 定 值 ， 那 么 我 们 可 以 通过 标准 的 非 线 性 
最 优化 算法 (例如 共 轿 梯度 法 ) ， 使 用 误差 反 向 传播 计算 所 需 的 导数 ， 找 到 后 验 概率 的 最 大 
值 。 我 们 将 最 大 值 的 位 置 记 作 wxM4P。 

找到 了 wmaP 的 众 数 ， 我 们 就 可 以 通过 计算 后 验 概率 分 布 的 负 对 数 的 二 阶 导数 ， 建 立 一 个 局 
部 的 高 斯 近似 。 根 据 公式 (5.165) ， 负 对 数 后 验 概率 的 二 阶 导数 为 


A=—-VVInp(w|D,a,b)=aI+BH (5.160) 


这 里 ， 互 是 一 个 Hessian 和 矩阵， 由 平方 和 误差 函数 关于 忆 的 分 量 组 成 。 计 算 和 近似 Hessian 和 矩阵 的 
方法 已 经 在 5.4 节 讨论 过 。 这 样 ， 后 验 概率 对 应 的 高 斯 近似 由 公式 (4.134) 给 出 ， 形 式 为 


qw | D)=N(w | wuap, 4 (5.167) 
类 似 地 ， 预 测 分 布 可 以 通过 将 后 验 概率 分 布 求 积分 的 方式 获得 。 
p(t | z,D) = / p(t | 2, ww)q(w | D) dw (5.168) 


然而 ， 即 使 对 于 后 验 分 布 的 高 斯 近似 ， 这 个 积分 仍然 无 法 得 到 解析 解 ， 因 为 网 络 函 
数 y(z, ww) 与 w 的 关系 是 非 线性 的 。 为 了 将 计算 过 程 进行 下 去 ， 我 们 现在 假设 ， 与 v(x, ww) 发 生变 
化 造成 的 w 的 变化 幅度 相 比 ， 后 验 概率 分 布 的 方差 较 小 。 这 使 得 我 们 可 以 在 wmaP 附 近 对 网 络 
函数 进行 泰勒 展开 。 只 保留 展开 式 的 现行 项 ， 可 得 


gW(zU) TS YT WMAP) + 9 (WwW 一 MAP) (5.169) 
其 中 我 们 定义 了 
9 = Vwy(T, WwW) wwap (5.170) 
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使 用 这 个 近似 ， 我 们 现在 得 到 了 一 个 线性 高 斯 模型 ，p(w) 为 高 斯 分 布 。 并 且 ，pLt | w) 也 是 高 斯 
分 布 ， 它 的 均值 是 w 的 线性 函数 ， 分 布 的 形式 为 


plt | zw,B) TN | yx, wuaAP) + 9 (Ww — waap), Bb!) (5.171) 
于 是 我 们 可 以 使 用 公式 (2.115) 给 出 的 边缘 分 布 p(t) 的 一 般 结果 ， 得 到 
p(t | ZX,D, a, pb) 一 N(t | yx, WMAP), 0 (2)) (5.172) 


其 中 ,与 输入 相关 的 方差 为 
o2(z)=6 1!+g A lg (5.173) 


我 们 看 到 预测 分 布 p(t | x,D) 是 一 个 高 斯 分 布 ， 它 的 均值 由 网 络 函 数 y(X,WwMmaP) 给 出 ， 参 数 设 
置 为 了 MAP 值 。 方 差 由 两 项 组 成 。 第 一 项 来 自 目 标 变量 的 固有 噪声 ， 第 二 项 是 一 个 与 z 相 关 的 
项 ， 表 示 由 于 模型 参数 ww 的 不 确定 性 造成 的 内 插 的 不 确定 性 。 可 以 将 这 个 结果 与 公式 (3.58) 和 
公式 (3.59) 给 出 的 线性 回归 模型 的 对 应 的 预测 分 布 进行 对 比 。 





5.7.2” 超 参数 最 优化 


目前 为 止 ， 我 们 已 经 假定 了 超 参 数 a 和 6 是 固定 的 、 已 知 的 。 我 们 可 以 使 用 3.5 节 讨论 的 模型 
证 据 框架 ， 结 合 使 用 拉 普 拉 斯 近似 得 到 的 后 验 概率 的 高 斯 近似 ， 得 到 确定 这 些 超 参数 的 值 的 步 
又 。 

超 参数 的 边缘 似 然 函 数 ， 或 者 模型 证 据 ， 可 以 通过 对 网 络 权 值 进行 积分 的 方法 得 到 ， 即 


p(D | a, 8) = p(D | iw; Bjp(w | a) dw (5.174) 


通过 使 用 拉 普 拉 斯 近似 的 结果 (4.135) ， 这 个 积分 很 容易 计算 。 取 对 数 ， 可 得 





1 N N 
Inp(D |a,B) -E(wyar)— 3 ln |4| 十 了 ln a + 本 ln 8 可 ln(27r) (5.175) 
其 中 W 是 ww 中 参数 的 总 数 。 正 则 化 误差 函数 的 定义 为 
到 a 
E(wMAP)= 3 {y(n, WMAP) — tn} + FWMAPWMAP (5.170) 
n=1 


我 们 看 到 这 与 线性 回归 模型 的 对 应 的 结果 (3.86) 的 函数 形式 相同 。 

在 模型 证 据 框 架 中 ， 我 们 通过 最 大 化 ln p(D | a, 8) 对 a 和 6 进行 点 估计 。 首 先 考 虑 关于 a 进行 
最 大 化 ， 这 可 以 通过 与 3.5.2 节 讨论 的 线性 回归 的 情形 相 类 似 的 方法 计算 。 首 先 ， 我 们 定义 特征 
值 方程 

BHau: 一 入 ii Ge 


其 中 五 是 在 凤 = wmaP 人 处 计算 的 Hessian 和 矩阵 ， 由 平方 和 误差 函数 的 二 阶 导数 组 成 。 通 过 类 比 公 
式 (3.92) ,我 们 有 





WAPWMAP 
其 中 表示 参数 的 有 效 数量 ， 定 义 为 
WwW 
Xi 
一 5.179 
2, Q 十 Ai ) 


注意 ， 这 个 结果 与 线性 回归 的 情形 完全 相同 。 然 而 ， 对 于 非 线性 神经 网 络 ， 它 忽略 了 下 面 的 事 
实 : a 的 改变 会 引起 Hessian 和 矩阵 互 的 改变 ， 进 而 改变 特征 值 。 于 是 ， 我 们 隐 式 地 忽略 了 涉及 
到 X 关 于 a 的 导数 的 项 。 
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类 似 地 ， 根 据 公式 (3.95) ， 我 们 看 到 ， 关 于 2 最 大 化 模型 证 据 ， 可 以 得 到 下 面 的 重 估计 公 


En WMAP) — tn}” (5.180) 
人 

与 线性 模型 一 样 ， 我 们 需要 交替 地 进行 超 参 数 a 和 6 的 重新 估计 以 及 后 验 概率 分 布 的 更 新 。 然 
而 ， 对 于 神经 网 络 来 说 ， 由 于 后 验 概率 分 布 的 多 峰 性 质 ， 情 况 更 复杂 。 结 果 ， 使 用 最 大 化 对 数 
后 验 概率 的 方法 找到 的 解 xr4pP 将 依赖 于 的 初始 化 。 只 要 我 们 考虑 的 是 预测 问题 ， 那 么 仅仅 
由 于 隐 含 层 的 结 点 交换 和 符号 改变 所 造成 的 不 同 结果 将 给 出 相同 的 预测 ， 并 且 预 测 的 结果 与 等 
价 解 中 的 哪 一 个 解 被 找到 没有 关系 。 然 而 ， 也 可 能 存在 不 等 价 的 解 ， 这 些 通常 会 产生 不 同 的 最 
优 超 参 数 。 

为 了 比较 不 同 的 模型 ， 例 如 具有 不 同 隐 含 单元 数量 的 神经 网 络 ， 我 们 需要 计算 模型 证 
据 p(D)。 将 使 用 迭代 最 优化 过 程 得 到 的 超 参数 值 c 和 8 代入 公式 (5.175) ， 我 们 可 以 得 到 模型 证 
据 的 近似 。 一 个 更 加 仔细 的 计算 方法 是 关于 a 和 6 求 积分 ， 同 时 使 用 一 个 高 斯 近似 (MacKay, 
1992; Bishop, 1995a) 。 在 这 两 种 方法 中 ， 都 需要 计算 Hessian 和 矩阵 的 行列 式 |A|。 这 在 实际 应 用 
中 会 有 很 大 的 问题 ， 因 为 与 矩阵 的 迹 不 同 ， 行列 式 对 于 小 的 特征 值 比较 敏感 ， 而 这 些 特征 值 通 
常 很 难 精 确 计算 。 

拉 普 拉 斯 近似 基于 的 是 权 值 的 后 验 概率 分 布 的 众 数 附近 的 局 部 二 次 展开 。 在 5.1.1 节 ， 我 们 已 
经 看 到 ， 在 两 层 神经 网 络 中 ， 任 意 给 定 的 众 数 都 是 M124 个 等 价 的 众 数 中 的 一 个 ， 这 些 等 价 的 


众 数 由 网 络 的 互 换 对 称 性 和 符号 对 称 性 造成 ， 其 中 以 是 隐 含 结 点 的 数量 。 当 比较 具有 不 同 隐 伟 
结 点 数量 的 网 络 时 ， 通 过 将 模型 证 据 乘 以 因子 M!2”“ ， 就 可 以 考虑 到 这 一 点 。 


5.7.3 用 于 分 类 的 贝 叶 斯 神经 网 络 


目前 ， 我 们 已 经 使 用 了 拉 普 拉 斯 近似 ， 推 导出 了 神经 网 络 回归 模型 的 贝 叶 斯 方法 。 我 们 现在 
要 讨论 的 是 ， 当 应 用 于 分 类 问题 时 ， 这 个 框架 应 该 如 何 修改 。 这 里 ， 我 们 要 考虑 的 网 络 有 一 
个 logistic sigmoid 和 输出 ， 对 应 于 一 个 二 分 类 问题 。 将 网 络 扩展 到 多 类 softmax 输 出 是 很 直接 的 。 
我 们 构建 神经 网 络 的 过 程 与 45 节 讨论 线性 分 类 模型 的 结果 十 分 类 似 ， 因 此 我 们 建议 读者 在 学 习 
本 节 之 前 ， 应 该 对 那 一 节 的 内 容 比 较 熟悉 。 





模型 的 对 数 似 然 函 数 为 
N 
Inp(D | w) = > {tnlnyn + (1— tn)In(l — yn)} (5.181) 
n=1] 


其 中 th & {0,1} 是 目标 值 ， 且 yn 三 Yy(xn,w)。 注 意 ， 这 里 没有 超 参 数 8， 因 为 我 们 假定 数据 点 被 
正确 标记 了 。 与 之 前 一 样 ， 先 验 概率 分 布 是 公式 (5.162) 给 出 的 各 向 同性 高 斯 分 布 。 

将 拉 普 拉 斯 框架 用 在 这 个 模型 中 的 第 一 个 阶段 是 初始 化 超 参 数 w， 然 后 通过 最 大 化 对 数 后 验 
概率 分 布 的 方法 确定 参数 向 量 w。 这 等 价 于 最 小 化 正则 化 误差 函数 


E(w) = -Inp(D | w) + Fw w (5.182) 
最 小 化 的 过 程 可 以 通过 使 用 误差 反 向 传播 方法 结合 标准 的 最 优化 算法 得 到 ， 正 如 5.3 节 所 说 的 那 


样 。 

找到 权 向 量 的 解 wvyap 之 后 ， 下 一 步 是 计算 由 负 对 数 似 然 函数 的 二 阶 导数 组 成 的 Hessian 算 
阵 态 。 这 可 以 通过 使 用 5.4.5 节 介绍 的 精确 方法 ,或 者 使 用 公式 (5.85) 给 出 的 外 积 近似 方法 求 
得 。 负 对 数 后 验 概率 的 二 阶 导数 可 以 写成 公式 (5.166) 的 形式 ， 这 样 ， 后 验 概率 的 高 斯 近似 就 
由 公式 (5.167) 给 出 。 

为 了 最 优化 超 参 数 a， 我 们 再 次 最 大 化 边缘 似 然 函 数 。 很 容易 证 明 ， 边 缘 似 然 函数 的 形式 为 
Ina (5.183) 





1 
Inp(D |a) -E(wmapr) 3 lIn|Al|+ 
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三 多 


图 5.22: 模型 证 据 框架 应 用 于 人 工 生成 的 二 分 类 数据 集 的 说 明 。 绿 色 曲线 表示 最 优 的 决策 边界 ， 黑 色 曲 线 
表示 通过 最 大 化 似 然 函 数 调节 一 个 具有 8 个 隐 含 结 点 的 两 层 神经 网 络 的 结果 ， 红 色 曲 线 表 示 包 含 一 个 正则 
化 项 的 结果 ， 其 中 a 使 用 模型 证 据 的 步骤 进行 了 最 优化 ， 初 始 值 为 a = 0。 注 意 ， 模 型 证 据 步骤 极 大 地 绥 
解 了 模型 的 过 拟 合 现 象 。 


其 中 ， 正 则 化 的 误差 函数 为 
N 
Blwuap) = 一》 {inlnyn t+ (Ltn)ln(l — Vn)} + Fwhapwuap (5.184) 
n=] 


其 中 三 y(zn,WwMmAP)。 关 于 a， 最 大 化 这 个 模型 证 据 函 数 ， 可 以 得 到 公式 (5.178) 给 出 的 重 
估计 方程 。 

使 用 模型 证 据 的 方法 确定 a 的 步骤 如 图 5.22 所 示 ， 所 用 的 数据 集 在 附录 A 中 讨论 。 

最 后 ， 我 们 需要 找到 公式 (5.168) 定义 的 预测 分 布 。 与 之 前 一 样 ， 由 于 网 络 函 数 的 非 线性 
的 性 质 ， 积 分 是 无 法 直接 计算 的 。 最 简单 的 近似 方法 是 假设 后 验 概率 非常 罕 ， 因 此 可 以 进行 下 
面 的 近似 

p(t | £,D) p(t | zx, wmMAP) (5.185) 
然而 ， 我 们 可 以 放宽 这 个 假设 ,通过 考虑 后 验 概率 分 布 的 方差 。 在 这 种 情况 下 ， 与 回归 问题 的 
情形 相同 ， 对 网 络 输出 进行 线性 近似 是 不 合适 的 ， 因 为 输出 激活 函数 是 logistic sigmoid 函 数 ， 将 
输出 限制 在 了 区 间 (0, 1)。 相 反 ， 我 们 对 输出 激活 函数 进行 线性 近似 ， 形 式 为 


a(zx,w) ~ amaAp(z) +b i (w— wmap) (5.180) 


其 中 ，awa4pP(z) = a(z,WM4P) 以 及 向 量 三 Va(7x,wmaP) 都 可 以 通过 反问 传播 方法 求 出 。 
由 于 我 们 现在 对 的 后 验 概率 分 布 进行 了 高 斯 近似 ， 并 且 ao 的 模型 是 刀 的 线性 函数 ， 因 此 我 
们 现在 可 以 使 用 4.5.2 节 的 结果 。 由 神经 网 络 的 权 值 的 分 布 引出 的 输出 单元 激活 的 值 的 分 布 为 


pla | x,D) = fs (a — amaP(7x) 一 b7 (x)(w 一 4P)) qdw | D) dw (5.187) 


其 中 q(w | D) 是 公式 (5.187) 给 出 的 对 后 验 概率 分 布 的 高 斯 近似 。 根 据 45.2 节 ， 我 们 看 到 这 个 


分 布 是 一 个 高 斯 分 布 ， 均 值 为 auw4P 三 a(z,WM4P)， 方 差 为 


oa2(z) =b (rz)A 1b(zy) (5.188) 
最 后 ， 为 了 得 到 预测 分 布 ， 我 们 必须 对 0 进行 积 4 
2D(t 三 工 | z, 刀 ) = f sore | xz,D) da (5.189) 


高 斯 分 布 与 logistic sigmoid 函 数 的 卷 积 是 无 法 计算 的 。 于 是 我 们 将 公式 (4.153) 给 出 的 近似 应 用 
于 公式 (5.189) ， 可 得 
p(t=1|2,D)=o (rs(o2)amaP) (5.190) 
其 中 ，#(-) 由 公式 (4.154) 定义 。 回 忆 一 下 ，02 和 5b 都 是 z 的 函数 。 
图 5.23 给 出 了 这 种 方法 的 一 个 例子 。 使 用 的 数据 集 是 附录 A 介绍 的 人 工 生成 数据 集 。 
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图 5.23: 对 于 一 个 具有 8 个 隐 含 结 点 带 有 tanb 激 活 函数 和 一 个 logistic sigmoid 输 出 结 点 的 贝 叶 斯 网 络 应 用 拉 
普 拉 斯 近似 的 说 明 。 权 参数 使 用 缩放 的 共 力 梯度 方法 得 到 ， 超 参数 a 使 用 模型 证 据 框 架 确 定 。 左 图 是 使 
用 基于 参数 的 wxr4P 的 点 估计 的 简单 近似 (5.185) 得 到 的 结果 ， 其 中 绿色 曲线 表示 y = 0.5 的 决策 边界 ， 
其 他 的 轮廓 线 对 应 于 y = 0.1,0.3,0.7 和 0.9 的 输出 概率 。 右 图 是 使 用 公式 (5.190) 得 到 的 对 应 的 结果 。 注 
意 ， 求 边缘 概率 分 布 的 效果 是 扩散 了 轮廓 线 ， 使 得 预测 的 置信 度 变 低 ， 从 而 在 每 个 输入 点 z 处 ， 后 验 概 
率 分 布 向 着 0.5 的 方向 偏 移 ， 而 y = 0.5 的 边界 本 身 不 受 影响 。 


5.8 练习 


(51) (em) 考虑 形式 为 (57) 的 两 层 神经 网 络 ， 其 中 隐 含 单元 非 线性 激活 函 
数 凡 (.) 为 logistic sigmoid 函 数 ， 形 式 为 


o(a) = {1+exp(-a)}™ (5.191) 


证 明 ， 存 在 一 个 等 价 的 网 络 ， 它 计算 了 完全 相同 的 函数 ， 但 是 隐 含 单元 激活 函数 为 tanh(a)， 其 
中 tanh 函 数 由 公式 (5.59) 定义 。 提 示 : 首先 找到 c(o) 与 tanh(a) 之 间 的 关系 ， 然 后 证 明 两 个 神 
经 网 络 的 参数 的 差别 可 以 通过 线性 变换 进行 补偿 。 

(52) (*) 证 明 ， 在 多 输出 神经 网 络 的 条 件 概率 分 布 (5.16) 下 ， 最 大 化 似 然 函数 等 价 于 
最 小 化 平方 和 误差 函数 (5.11) 。 

(53) (**) 考虑 一 个 涉及 到 多 个 目标 变量 的 回归 问题 ， 其 中 我 们 假定 ， 以 输入 向 量 z 为 条 
件 ， 目 标 变 量 的 概率 分 布 是 一 个 高 斯 分 布 ， 形 式 为 


Plt | 站) = N(t | yx,w), D>) (5.192) 


其 中 ，y(z,w) 是 神经 网 络 的 输出 ， 输 入 向 量 为 z， 权 向 量 为 w， 允 是 目标 变量 上 的 假定 高 斯 噪声 
的 协 方 差 。 给 定 一 组 Zt 和 t 的 独立 观测 ， 写 出 为 了 找到 ww 的 最 大 似 然 解 ， 我 们 必须 最 小 化 的 误差 
浮 数 的 表达 式 ， 其 中 我 们 假定 巡回 定 且 已 知 。 现 在 假设 允 也 需要 从 数据 中 确定 ， 写 下 允 的 最 大 似 
然 解 的 表达 式 。 注 意 ， 现 在 关于 ww 和 允 的 优化 过 程 偶合 在 了 一 起 ， 这 与 5.2 节 讨论 的 独立 目标 变 
量 的 情形 不 同 。 

(54) Cn) 考虑 一 个 二 分 类 问题 ， 其 中 目标 变量 值 为 € {0,1}， 网 络 输 出 y(z,w) 表 
示 p(t = 1 | z)， 并 且 假 设 存在 一 个 概率 e 使 得 训练 数据 点 的 类 别 标签 被 标记 错 。 假 设 数据 集 是 独 
立 同 分 布 的 ， 写 出 对 应 于 负 对 数 似 然 函 数 的 误差 函数 。 验 证 误差 函数 (5.21) 可 以 在 e = 0 的 时 
候 得 到 。 注 意 ， 这 个 误差 函数 使 得 模型 对 于 错误 标记 的 数据 更 加 鲁 棒 ， 这 与 通常 的 误差 函数 不 
同 














(5.5) (*) 有 一 个 多 分 类 的 神经 网 络 模型 ， 网 络 输出 为 ys (zx,2w) = p(ts = 1| zx)。 证明， 对 
这 个 神经 网 络 的 似 然 函数 进行 最 大 化 等 价 于 对 交叉 炉 误 差 函 数 (5.24) 进行 最 小 化 。 
(5.6) (*) 证 明 ， 误 差 函 数 (5.21) 关于 具有 logistic sigmoid 激 活 函 数 的 输出 单元 的 激 
活 鸣 的 导数 满足 公式 (5.18) 。 
(5.7) (*) 证 明 ， 误差 函 数 (5.24) 关于 具有 softmax 激 活 函 数 的 输出 单元 的 激活 a 的 导数 
满足 公式 (5.18) 。 
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(5.8) (*) 从 公式 (4.88) 中 可 以 看 出 ，logistic sigmoid 激 活 函 数 的 导数 可 以 根据 函数 值 本 
身 表 示 。 推 导出 公式 (5.59) 定义 的 tanh 激 活 函 数 的 对 应 结果 。 

(5.9) (*) 二 分 类 问题 的 误差 国 数 (5.21) 是 针对 具有 logistic sigmoid 输 出 激活 函数 的 神经 
网 络 推导 的 ， 从 而 0 < y(z,w) < 1， 并 且 数 据 具 有 目标 值 : €& {0,1}。 如 果 我 们 考虑 一 个 神经 网 
络 ， 它 的 输出 满足 -1 < y(z,w) < 1， 且 对 于 类 别 Cl， 有 上 = 1， 对 于 类 别 C2， 有 t = -1， 推 导 
对 应 的 误差 函数 。 输 出 单元 激活 函数 的 合适 的 选择 是 什么 ? 

(5.10) (*) 考虑 特征 方程 为 (5.33) 的 Hessian 和 矩阵 及 。 通 过 令 公 式 (5.39) 中 的 向 量 v 等 
于 每 个 特征 向 量 w;， 证 明 互 是 正定 的 当 且 仅 当 它 的 特征 值 全 部 为 正 。 

(5.11) ”(**) 考虑 公式 (5.32) 定义 的 二 次 误差 函数 ， 其 中 Hessian 秆 阵 互 的 特征 值 方程 为 
(5.33) 。 证 明 ， 对 应 的 常数 误差 函数 的 轮 廊 线 是 椭圆 ， 椭 圆 的 轴 与 特征 向 量 wi 对 齐 ， 长 度 与 对 
应 的 特征 值 X 的 平方 根 成 反比 。 

(5.12) ”(**) 通过 考虑 误差 函数 在 驻 点 w* 处 的 局 部 泰勒 展开 (5.32) ， 证 明 驻 点 是 误差 函 
数 的 局 部 极 小 值 的 充 要 条 件 是 ， 公 式 (5.30) 定义 的 Hessian 和 矩阵 态 是 正定 的 ， 其 中 省 = w*。 

(5.13) (*) 证 明 ， 由 于 Hessian 和 矩阵 态 具 有 对 称 性 ， 二 次 误差 函数 (5.28) 的 独立 元 素 的 数 

(5.14) (*) 通过 计算 泰勒 展开 式 ， 验 证 公式 (5.69) 右 侧 中 的 O(e) 项 被 消去 。 

(5.15) ”GC%) 在 5.3.4 节 ， 我 们 推导 了 使 用 反 向 传播 方法 计算 神经 网 络 的 Jacobian 和 矩阵 的 步 
又 。 使 用 正 向 传播 的 方程 ， 推 导出 计算 Jacobian 和 矩阵 的 步骤 。 

(5.16) (*) 使 用 平方 和 误差 图 数 的 神经 网 络 的 Hessian 和 矩阵 的 外 积 近 似 由 公式 (5.84) 给 
出 。 将 这 个 结果 推广 到 多 个 输出 的 情形 。 

(5.17) (*) 考虑 下 面 形 式 的 平方 损失 函数 


五 三 ;| {y(z,1w) —t} p(x,t) dy dt (5.193) 


其 中 y(x,w) 是 参数 化 的 函数 ， 例 如 神经 网 络 。 公 式 (1.89) 给 出 的 结果 表明 ， 使 误差 达到 最 小 
值 的 函数 y(z,w) 等 于 给 定 x 的 条 件 下 t 的 条 件 期 望 。 使 用 这 个 结果 证 明 E 关 于 向 量 w 的 两 个 元 
素 wr 和 us 的 二 阶 导 数 为 a Be 

Bors 一 和 os 9 Ee 
注意 ， 对 于 来 自 p(x) 的 有 限 样 本 ， 我 们 可 以 得 到 公式 (5.84) 。 

(5.18) ”(*) 考虑 图 51 所 述 的 两 层 神经 网 络 ， 加 上 一 些 额 外 的 参数 ， 对 应 于 从 输入 直接 到 
输出 的 跨 层 链 接 。 通 过 扩展 5.3.2 节 的 讨论 ， 写 出 误差 函数 关于 这 些 附加 的 参数 的 导数 的 方程 。 

(5.19) (*) 考虑 这 样 一 个 神经 网 络 ， 它 具有 一 个 输出 单元 ， 输 出 单元 激活 函数 为 logistic 
sigmoid 消 数 ， 误 差 函 数 为 交 又 灶 误 差 函 数 。 推 必 对 于 这 个 网 络 的 Hessian 和 矩阵 的 外 积 近 似 的 表达 
式 (5.85) ， 这 对 应 于 平方 和 误差 通 数 的 结果 (5.84) 。 

(5.20) (*) 考虑 这 样 一 个 神经 网 络 ， 它 具有 K 个 输出 单元 ， 输出 单元 激活 函数 
为 softmax 孙 数 ， 误 差 函 数 为 交 又 炉 误 差 函 数 。 推 导 对 于 这 个 网 络 的 Hessian 和 矩阵 的 外 积 近 似 的 表 
达 式 ， 它 对 应 于 平方 和 误差 函数 的 结果 (5.84) 。 

(5.21) ”(***) 将 Hessian 矩 阵 的 外 积 近似 的 表达 式 推广 到 天 > 1 个 输出 单元 的 情形 。 从 而 ， 
推导 出 一 个 表达 式 使 得 公式 (5.87) 能 够 被 用 于 将 来 自 各 个 输出 单元 以 及 各 个 模式 的 贡献 顺序 地 
整合 到 一 起 。 这 个 表达 式 与 恒等式 (5.88) 一 起 ， 使 得 我 们 可 以 用 公式 (5.89) ， 通 过 顺序 地 整 
合 来 自 各 个 输出 和 模式 的 贡献 ， 求 出 Hessian 抢 阵 的 逆 和 矩阵 。 

(5.22) (**) 使 用 微 积分 的 链 式 规则 ， 推 导 公 式 (5.93) 、 (5.94) 和 (5.95) 给 出 的 关于 
两 层 前 馈 网 络 的 Hessian 和 矩阵 的 结果 。 

(5.23) ”(**) 将 5.4.5 节 给 出 的 两 层 神经 网 络 的 精确 的 Hessian 和 矩阵 的 结果 进行 推广 ， 使 其 包 
含 从 输入 直接 到 输出 的 跨 层 链接 。 

(5.24) (*) 验证 公式 (5.113) 和 (5.114) 定义 的 网 络 函数 在 将 变换 (5.115) 作用 于 输入 
的 情形 下 具有 不 变性 ， 只 要 权 值 和 偏 置 同 时 使 用 公式 (5.116) 和 (5.117) 进行 变换 即 可 。 类 似 
地 ， 证 明 网 络 输出 可 以 根据 公式 (5.118) 进行 变换 ， 方 法 是 将 公式 (5.119) 和 (5.120) 给 出 的 
变换 作用 于 第 二 层 的 权 值 和 偏 置 。 
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(5.25) (**) 考虑 下 面 形式 的 二 次 误差 函数 
B= Et3(w—w) Hw w) (5.195) 


其 中 w* 表 示 最 小 值 ，Hessian 矩 阵 互 是 正定 的 ， 并 且 是 常量 。 假 设 初始 权 向 量 w'% 被 选 在 原点 
处 ， 并 且 使 用 简单 的 梯度 下 降 法 进行 更 新 
w=w 一 oOV 古 (5.190) 


其 中 7 表示 迭代 步骤 数 ，p 是 学 习 率 〈 假 设 很 小 ) 。 证 明 ， 在 7 步 之 后 ， 与 瑟 的 特征 向 量 平行 的 
权 向 量 的 元 素 可 以 写成 





u 们 = 人 一 (一 poor] (5.197) 
其 中 避 = 一 Wj, 且 wj; 和 ;分 别 是 五 的 特征 向 量 和 特征 值 ， 从 而 
Huu; = NUj (5.198) 


证 明 ， 当 7 一 co 时 ， 会 得 到 w(7) 一 w*， 这 与 预期 相符 ， 其 中 我 们 假设 |1 - pzj| < 1。 现 在 ， 假 
设 训 练 在 有 限 的 7 步骤 之 后 停止 。 证 明 ， 与 Hessian 和 矩阵 的 特征 向 量 平行 的 权 向 量 的 元 素 满足 


wh ~ wi my > (7) 1 时 (5.199) 


lw < 当 w 才 (p7)-! 时 (5.200) 


将 这 个 结果 与 3.5.3 节 关于 简单 的 权 值 衰减 的 正则 化 的 讨论 进行 对 比 ， 从 而 证 明 (por) :类 似 于 正 
则 化 参数 入 。 上 述 结果 也 表明 ， 公 式 (3.91) 定义 的 网 络 中 的 参数 的 有 效 数量 随 着 训练 的 进行 而 
增 大 。 

(5.26) (**) 考虑 一 个 多 层 感知 器 网 络 ， 具 有 任意 的 前 馈 拓扑 结构 ， 使 用 最 小 化 切 向 传 
播 误差 水 数 (5.127) 的 方式 进行 训练 ， 其 中 正则 化 函数 由 公式 (5.128) 给 出 。 证 明 ， 正 则 化 
项 Q 可 以 写成 模式 上 的 求 和 式 ， 形 式 为 





1 
Qn = 3 2 (Oy) (5.201) 
其 中 ，9 是 微分 算 符 ， 定 义 为 
9 三 > Ne (5.202) 
通过 将 算 符 9 作 用 于 正 向 传播 方程 
Zi 一 h(a;), Qj 二 让 (5.203) 


证 明 ，Q% 可 以 通过 正 疝 传播 来 计算 ,计算 时 使 用 下 面 的 方程 





w= (5.204) 
其 中 我 们 已 经 定义 了 新 的 变量 
现在 ， 证明 Q%% 关 于 网 络 的 权 值 ws 的 导 ee 写成 
90 
Be 2 ap{ bkrzs 十 kras} (5.206) 
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其 中 我 们 已 经 定义 
Ogr 三 2 pr 三 GOkr (5.207) 
写 出 6ir 的 反 向 传播 方程 ， 从 而 推导 出 计算 tr 的 一 组 反 向 传播 方程 。 

(5.27) ”(**) 考虑 使 用 变换 的 数据 进行 训练 的 框架 ， 其 中 变换 的 过 程 仅 仅 是 增加 一 个 随机 
噪声 z 一 x 十 E， 其 中 是 一 个 高 斯 分 布 ， 均 值 为 0%，， 并 且 具 有 单位 协 方差 。 通 过 使 用 与 5.5.5 节 类 
似 的 推导 ,证 明 得 到 的 正则 化 项 变 成 了 Tikhonov 形 式 (5.135) 。 

(5.28) (*) 考虑 一 个 神经 网 络 ， 例 如 5.5.6 节 讨论 的 卷 积 网 络 ， 其 中 多 个 权 值 被 限制 为 具有 
相同 的 值 。 为 了 确保 在 计算 误差 函数 关于 网 络 的 可 调节 参数 的 导数 时 ， 这 些 限制 条 件 能 够 满 
足 ， 讨 论 应 该 对 标准 的 反 向 传播 算法 进行 怎样 的 修改 。 

(5.29) (*) 验证 公式 (5.141) 给 出 的 结果 。 

(5.30) (*) 验证 公式 (5.142) 给 出 的 结果 。 

(5.31) (*) 验证 公式 (5.143) 给 出 的 结果 。 

(5.32) (**) 证 明 ， 公式 (5.146) 定义 的 混合 系数 {zx} 关 于 辅助 参数 {nj} 的 导数 为 

Ok 
On; 


因此 ， 通 过 使 用 限制 条 件 2j; Yr(wi) = 1 (对 于 所 有 i 都 成 立 ) ,推导 公式 (5.147) 给 出 的 结 
果 








= OjkTj — TjNk (5.208) 


(5.33) (*) 写 出 一 对 方程 ， 用 连接 角 和 和 0 以 及 连接 长 度 上 和 三 表示 图 5.18 所 示 的 机 械 臂 
的 笛 卡尔 坐标 (x1, zz)。 假 设 坐 标 系 的 原点 由 下 方 的 机 械 臂 的 连接 点 给 出 ， 那 么 这 些 方程 定义 了 
机 械 臂 的 “ 正 向 运动 学 ”。 

(5.34) ”(*) 推导 误差 函数 关于 控制 混合 密度 网 络 的 混合 系数 的 网 络 输出 激活 的 导数 

(5.155) 。 

(5.35) (*) 推导 误差 函数 关于 控制 混合 密度 网 络 的 分 量 均值 的 网 络 输出 激活 的 导数 

(5.156) 。 

(5.36) (*) 推导 误差 函数 关于 控制 混合 密度 网 络 的 分 量 方差 的 网 络 输出 激活 的 导数 

(5.157) 。 


(5.37) (*) 验证 公式 (5.158) 和 “(5.160) 给 出 的 混合 密度 网 络 模型 的 条 件 均值 和 方差 。 
(5.38) (*) 使 用 一 般 的 结果 (2.115) ， 推 导 贝 叶 斯 神经 网 络 模型 的 拉 普 拉 斯 近似 的 预测 


分 布 (5.172) 。 

(5.39) (*) 使 用 拉 普 拉 斯 近似 的 结果 (4.135) 证 明 贝 叶 斯 神经 网 络 模型 的 超 参数 a 和 6 的 
证 据 函 数 可 以 用 (5.175) 近似 。 

(5.40) (*) 为 了 将 5.7.3 节 讨论 的 贝 叶 斯 神经 网 络 的 框架 推广 到 使 用 softmax 输 出 单元 激活 
函数 的 多 类 问题 的 网 络 中 ， 说 出 需要 进行 的 修改 。 

(5.41) (**) 遵照 5.7.1 节 和 5.7.2 节 给 出 的 回归 网 络 的 类 似 的 步骤 ， 推 导 边 缘 似 然 函 数 的 结 
果 (5.183) ， 其 中 网 络 具 有 交叉 业 误 差 函 数 以 及 logistic sigmoid 输 出 单元 激活 函数 。 
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6 核 方 法 


在 第 3 章 和 第 4 章 ， 我 们 考虑 了 回归 问题 和 分 类 问题 的 线性 参数 模型 ， 其 中 从 输入 z 到 输 
出 y 的 映射 Xz,w) 的 形式 由 可 调节 参数 构成 的 向 量 w 控 制 。 在 学 习 阶 段 ， 一 组 训练 数据 用 来 得 
到 参数 向 量 的 点 估计 ， 或 者 用 来 确定 这 个 向 量 的 后 验 概率 分 布 。 然 后 ， 训 练 数据 之 后 被 丢弃 ， 
Ca 
经 网 络 。 

然而 ， 有 这 样 一 类 模式 识别 的 技术 : 训练 数据 点 或 者 它 的 一 个 子 集 在 预测 阶段 仍然 保留 并 且 
被 使 用 。 例 如 ， 由 核 函数 的 线性 组 合 构成 的 Parzen 概 率 密度 模型 ， 其 中 每 一 个 核 函数 都 以 训练 
数据 点 为 中 心 。 类 似 地 ， 在 2.5.2 节 ， 我 们 介绍 了 一 种 简单 的 分 类 方法 ， 即 最 近邻 方法 。 这 种 
方法 把 每 个 新 的 测试 向 量 分 配 为 训练 数据 集 里 距离 最 近 的 样本 的 标签 。 这 些 都 是 基于 存储 
(memory-based) 的 方法 的 例子 。 基 于 存储 的 方法 把 整个 训练 数据 存储 起 来 ， 用 来 对 未 来 的 数 
据点 进行 预测 。 通 常 这 种 方法 需要 一 个 度量 ， 来 定义 输入 空间 任意 两 个 向 量 之 间 的 相似 度 。 这 
种 方法 通常 训练 速度 很 快 ， 但 是 对 测试 数据 点 的 预测 速度 很 慢 。 

许多 线性 参数 模型 可 以 被 转化 为 一 个 等 价 的 对 偶 表 示 。 对 偶 表 示 中， 预测 的 基础 也 是 在 训 
练 数据 点 处 计算 的 核 函数 (kernel function) 的 线性 组 合 。 正 如 我 们 将 看 到 的 那样 ， 对 于 基于 固 
定 非 线性 特征 空间 (feature space) 映射 p(x) 的 模型 来 说 ， 核 函数 由 下 面 的 关系 给 出 。 


k(x, x’) = bz) $7') (6.D) 


根据 这 个 定义 ， 我们 看 到 核 通 数 关 于 它 的 参数 是 对 称 的 ， 即 k(x, 2 ) = k(x 和 ,zx)。 核 的 概念 
由 Aizenman et al. (1964) 引入 模式 识别 领域 。 那 篇 文章 介绍 了 势 函数 的 方法 。 之 所 以 被 称 为 势 
函数 ， 是 因为 它 类 似 于 静电 学 中 的 概念 。 虽 然 被 忽视 了 很 多 年 ， 但 是 Boser et al. (1992) 在 大 边 
缘分 类 器 的 问题 中 把 它 重 新 引入 到 了 极其 学 习 领 域 。 那 篇 文章 提出 了 支持 向 量 机 (support 
vector machine) 的 方法 。 从 那 时 起 ， 这 个 话题 在 理论 上 和 实用 上 都 吸引 了 大 家 的 兴趣 。 一 个 最 
重要 的 发 展 是 把 核 方法 进行 了 扩展 ， 使 其 能 处 理 符号 化 的 物体 ， 从 而 极 大 地 扩展 了 这 种 方法 能 
处 理 的 问题 的 范围 。 

通过 考虑 公式 (6.1) 中 特征 空间 的 恒 等 映 射 p(x) = x， 我 们 就 得 到 了 核 函数 的 一 个 最 简单 
的 例子 ， 此 时 k(z, 2 人 ) = x 了 x’'。 我 们 把 这 个 称 为 线性 核 。 

用 特征 空间 的 内 积 的 方式 表示 核 的 概念 使 得 我 们 能 够 对 许多 著名 的 算法 进行 有 趣 的 扩展 。 扩 - 
展 的 方法 是 使 用 核 技 巧 (kernel trick) ， 也 被 称 为 核 替 换 (kernel substitution) 。 一 般 的 思想 
是 ， 如 果 我 们 有 一 个 算法 ， 它 的 输入 向 量 z 只 以 标量 积 的 形式 出 现 ， 那 么 我 们 可 以 用 一 些 其 他 
的 核 来 蔡 换 这 个 标量 积 。 例 如 ， 核 替换 方法 可 以 用 于 主 成 分 分 析 ， 从 而 产生 了 PCA 的 非 线性 变 
种 (Sch6lkopf et al., 1998) 。 核 替换 的 其 他 例子 包括 最 近邻 分 类 右 和 核 Fisher 判 别 函 数 (Mika et 
al., 1999; Roth and Steinhage, 2000; Baudat and Anouar, 2000) 。 

常用 的 核 函数 有 各 种 不 同 的 形式 ， 我 们 会 在 本 章 中 遇 到 告 干 个 核 函 数 的 例子 。 许 多 核 函 数 只 
是 参数 的 差 值 的 函数 ， 即 k(x, 2 ) = k(x 一 2 )， 这 被 称 为 静止 核 (stationary kernel) ， 因 为 核 函 
数 对 于 输入 空间 的 平移 具有 不 变性 。 男 一 种 核 函 数 是 同 质 核 (homogeneous kernel) ， 也 被 称 为 
径 向 基 函 数 (radial basis function) ， 它 只 依赖 于 参数 之 间 的 距离 〈 通 常 是 欧 儿 里 得 距离 ) 的 大 
小 ， 即 Etz,Z) =R(lz 一 2 由。 

最 近 的 关于 核 方 法 的 教材 有 Sch6lkopf and Smola (2002) ，Herbrich (2002) 和 Shawe-Taylor 
and Cristianini (2004) 。 











6.1 对 偶 表 示 
许多 回归 的 线性 模型 和 分 类 的 线性 模型 的 公式 都 可 以 使 用 对 偶 表 示 重 写 。 使 用 对 偶 表 示 形 
式 ， 核 函数 可 以 自然 地 产生 。 在 我 们 下 一 章 中 讨论 支持 向 量 机 的 时 候 ， 这 个 概念 十 分 重要 。 这 
里 ， 我 们 考虑 一 个 线性 模型 ， 它 的 参数 通过 最 小 化 正则 化 的 平方 和 误差 函数 来 确定 。 正 则 化 的 
平方 和 误差 函数 为 
J(wW) = 3 > {wT ole) 一 tn 十 SwTw (6.2) 


n=1] 
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其 中 入 > 0。 如 果 我 们 令 J(w) 关 于 w 的 梯度 等 于 零 ， 那 么 我 们 看 到 ww 的 解 是 向 量 p(zx) 的 线性 组 
合 的 形式 ， 系 数 是 ww 的 函数 ， 形 式 为 


1 N N 
w= {uw pen) tn} p(n) = Danplen) = Ba (63) 
n=1 


n=1 


其 中 重 是 设计 和 矩 阵 ， 第 nn 行为 6(zn)”。 这 里 ， 向 量 a = (a1,.….,aN)*， 并 且 我 们 定义 了 


本 -3 {wT (en) 人 (6.4 











我 们 现在 不 直接 对 参数 向 量 w 进 行 操作 ， 而 是 使 用 参数 向 量 a 重 新 整理 最 小 平方 算法 ， 得 到 一 个 
对 偶 表 示 (dual representation) 。 如 果 我 们 将 w = 于 Ta 代入 J(w)， 那 么 可 以 得 到 
J(a) = ja PET PPTa —alBEBit+ jtrt 十 >a7mm7a (6.5) 


其 中 t = (1,.….,tN)*。 我 们 现在 定义 Gram 和 矩阵 KK = 于 多”， 它 是 一 个 N x N 的 对 称 矩 阵 ， 元 素 


过 


Knm = p(Tn) P(Em) k(xn, Tm) (6.0) 


其 中 我 们 引入 了 公式 (6.1) 定义 的 核 函 数 (kernel function) K(z,z)。 使 用 Gram 和 矩阵， 平方 和 
误差 函数 可 以 写成 


Ja = sa KKa -aKtt ttt YarKa (6.7) 
使 用 公式 (6.3) 从 公式 (6.4) 中 消去 w， 求 解 a， 我们 有 
a= (K+AIN) it (6.8) 
如 果 我 们 将 这 个 代入 线性 回归 模型 中 ， 对 于 新 的 输入 XxX， 我 们 得 到 了 下 面 预测 
y(2) = Ww Pz) = a POT) = k(7) (K+ATN) Tt (6.9) 








其 中 我 们 定义 了 向 量 &(z)， 它 的 元 素 为 An(z) = R(zw z)。 因 此 我 们 看 到 对 偶 公 式 使 得 最 小 平方 
问题 的 解 完 全 通过 核 通 数 k(zx, 2 表示。 这 被 称 为 对 偶 公 式 ， 因 为 a 的 解 可 以 被 表示 为 9(z) 的 线 
性 组 合 ， 从 而 我 们 可 以 使 用 参数 向 量 w 恢 复出 原始 的 公式 。 注 意 ， 在 xz 处 的 预测 由 训练 集 数 据 的 
目标 值 的 线性 组 合 给 出 。 实 际 上 ， 我 们 已 经 在 3.3 节 中 得 到 过 这 个 结果 ， 只 不 过 记号 稍微 不 同 。 

在 对 偶 公式 中 ,我 们 通过 对 一 个 x YX 的 矩阵 求 逆 来 确定 参数 向 量 w， 而 在 原始 参数 空间 公 
式 中 ,我们 要 对 一 个 M x M 的 矩阵 求 逆 来 确定 www。 由 于 入 通常 远大 于 M， 因 此 对 偶 公 式 似乎 
没有 实际 用 处 。 然 而 ， 正 如 我 们 将 要 看 到 的 那样 ， 对 偶 公 式 的 优点 是 ， 它 可 以 完全 通过 核 
函数 k(x, 2 ) 来 表示 。 于 是 ， 我 们 可 以 直接 针对 核 函 数 进行 计算 ， 避免 了 显 式 地 引入 特征 向 
量 p(x)， 这 使 得 我 们 可 以 隐 式 地 使 用 高 维特 征 空间 ， 甚 至 无 限 维特 征 空 间 。 

基于 Gram 矩阵 的 对 偶 表 示 的 存在 是 许多 线性 模型 的 性 质 ， 包 括 感知 器 。 在 6.4 节 ， 我 们 会 研 
究 回归 的 概率 线性 模型 和 高 斯 过 程 方法 的 对 偶 性 。 当 我 们 在 第 7 章 讨论 支持 向 量 机 的 时 候 ， 对 偶 
性 也 起 着 重要 的 作用 。 





6.2 构造 核 
为 了 利用 核 奉 换 ， 我 们 需要 能 够 构造 合法 的 核 男 数 。 一 种 方法 是 选择 一 个 特征 空间 映 


射 %(z)， 然 后 使 用 这 个 映射 寻找 对 应 的 核 ， 如 图 6.1 所 示 。 这 里 ， 一 维 空间 的 核 函数 被 定义 为 
M 
kz = p(T) bz) = > bi(z)bi(z)) (6.10) 
7 二 1 


207 
wwaibbt.com DODDDDODOD 













































sso 
a : 


图 6.1: 从 对 应 的 基 浮 数 集合 构建 核 通 数 的 例子 。 在 每 一 列 中 ， 下 图 给 出 了 由 公式 (6.10) 定义 的 核 函 
数 F(z,zZ)， 它 是 z 的 函数 ，z“ 的 值 用 红色 又 号 表示 ， 而 上 图 给 出 了 对 应 的 基 函 数 ， 分 别 是 多 项 式 基 函数 
( 左 列 ) 、 高 斯 基 函 数 (中 列 ) 、logistic sigmoid 基 函数 ( 右 列 ) 。 


另 一 种 方法 是 直接 构造 核 函数 。 在 这 种 情况 下 ， 我 们 必须 确保 我 们 核 函数 是 合法 的 ， 即 它 对 
应 于 某 个 〈 可 能 是 无 穷 维 ) 特征 空间 的 标量 积 。 作 为 一 个 简单 的 例子 ， 考 虑 下 面 的 核 函数 


k(x2,z) = (z7z)” (6.11) 


如 果 我 们 取 二 维 输 入 空间 z = (x1, 7x2) 的 特殊 情况 ， 那 么 我 们 可 以 展开 这 一 项 ， 于 是 得 到 对 应 的 
非 线性 特征 映射 


k(z2,z) = (z7z)” = (Z121 十 Zo222)2 
一 2 十 271217Z222 十 2 22 
= (x3, V2z1zay23)(22, V2z122, 22) 
= (2) $lz) 


我 们 看 到 特征 映射 的 形式 为 B(xz) = (z2, V2z1z2, 驴 )” ， 因 此 这 个 特征 映射 由 所 有 的 二 阶 项 组 
成 ， 每 个 二 阶 项 有 一 个 具体 的 系数 。 

但 是 ， 更 一 般 地 ， 我 们 需要 找到 一 种 更 简单 的 方法 检验 一 个 函数 是 否 是 一 个 合法 的 核 函 
数 ， 而 不 需要 显示 地 构造 函数 p(xz)。 核 函数 k(x, zz 是 一 个 合法 的 核 函 数 的 充分 必要 条 件 
是 Gram 和 矩阵 (元 素 由 k(xn, xm) 给 出 ) 在 所 有 的 集合 {xn} 的 选择 下 都 是 半 正 定 的 (Shawe-Taylor 
and Cristianini, 2004) 。 注 意 ， 一 个 半 正 定 的 矩阵 与 元 素 全 部 非 负 的 矩阵 不 同 。 

构造 新 的 核 函 数 的 一 个 强大 的 方法 是 使 用 简单 的 核 函 数 作为 基本 的 模块 来 构造 。 可 以 使 用 下 
面 的 性 质 来 完成 这 件 事 。 

给 定 合法 的 核 语 (Zz, 2 和 k2(z,2')， 下 面 的 新 核 也 是 合法 的 


(6.12) 





k(x, 2) = chki(z, 2’) (6.13) 

k(x, x ) = f(z)hi(z, x ) f(x’) (6.14) 

K(Z,Z') 人 q(ki(z, 2’)) (6.15) 

k(x, 7x’) = exp(ki(z, x')) (6.10) 
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kzzZ) = (zzZ) 十 1o(z)Z/) (6.17) 


k(x, x’) = ki(zx, x ) ko (zx, x") (6.18) 
Ra) = ks(O(2), Be')) (6.19) 
k(x, 2’) = zl Ax (6.20) 
k(x, ) = ka(za, 2 ) + ko(xo, ZJ (6.21) 
k(z, 2) = ka(Ta, Tko (To, x,) (6.22) 


其 中 c > 0 是 一 个 常数 ，f(-) 是 任意 函数 ,aq(:) 是 一 个 系数 非 负 的 多 项 式 ,， p(x) 是 一 个 
从 Zz 到 RR 和 “的 函数 ，ka(,) 是 RR 中 的 一 个 合法 的 核 ，A 是 一 个 对 称 半 正 定 和 矩阵 ，zwa 和 和 26 是 变量 
(未 必 互 斥 ) ， 且 z = (za zj。 大 和 右 是 各 自 空间 的 合法 的 核 函 数 。 

知道 了 这 些 性 质 ， 我 们 现在 可 以 开始 构造 适用 于 具体 应 用 的 更 复杂 的 核 函数 了 。 我 们 要 求 
核 K(z, z) 是 对 称 的 半 正 定 的 ， 并 且 它 表示 面向 具体 应 用 中 z 和 z' 之 间 的 适当 形式 的 相似 性 。 
这 里 ， 我们 考虑 核 函 数 的 几 个 常见 的 例子 。 关 于 “ 核 工 程 " 的 一 个 更 加 广泛 的 讨论 ， 可 以 参 
考 Shawe-Taylor and Cristianini (2004) 。 

我 们 看 到 简单 的 多 项 式 核 k(x, 2 ) = (x x 人)? 值 包含 二 次 项 。 如 果 我 们 考虑 稍微 一 般 的 
核 K(z,z') = (2 了 zw' 十 c)?， 其 中 c > 0， 那 么 对 应 的 特征 映射 p(x) 就 会 包含 常数 、 线 性 项 和 二 
阶 项 。 类 似 地 ，k(zx,2') = (xX7 了 x) 和 包含 所 有 MM 阶 的 单项 式 。 例 如 ， 如 果 z 和 xz’ 是 两 张 图 片 ， 
那么 这 个 核 表 示 第 一 张 图 片 中 M 个 像素 和 第 二 张 图 片 中 M 个 像素 的 所 有 可 能 的 乘积 的 一 个 
特定 的 加 权 和 。 这 个 可 以 类 似 地 进行 推广 ， 使 其 包含 所 有 次 数 最 高 为 M 的 项 。 推 广 的 方式 
为 k(x, 2 ) = (x7z' 十 c)Y， 其 中 c > 0。 使 用 公式 (6.17) 和 公式 (6.18) 给 出 的 将 核 函 数 进行 组 
合 的 方法 ， 我们 看 到 这 些 都 是 合法 的 核 函数 。 

男 一 个 经 常 使 用 的 核 函 数 的 形式 为 


k(z, x') 一 exp (- La 4) (6.23) 
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这 个 经 常 被 称 为 高 斯 核 。 但 是 注意 ， 在 我 们 现在 的 讨论 中 ， 它 不 表示 概率 密度 ， 因 此 归 一 化 系 
数 被 省 略 了 。 这 是 一 个 合法 的 核 ， 理 由 如 下 。 我 们 把 平方 项 展开 


Iz oz = 2 w+ (rx 一 2272/ (6.24) 


下 了/ /NT oy/ 
k(z, 7x’) = exp (- 禄 ) exp ( 宇 ) exp (- 、 ) (6.25) 
然后 使 用 公式 (6.14) 和 公式 (6.16) ， 以 及 线性 核 K(z, 2 ) = x7 了 w' 的 合法 性 ， 即 可 看 到 高 斯 核 
是 一 个 合法 的 核 。 注 意 ， 对 应 于 高 斯 核 的 特征 向 量 有 无 穷 的 维 数 。 
高 斯 核 并 不 局 限于 使 用 欧 几 里 得 距离 。 如 果 我 们 使 用 公式 (6.24) 中 的 核 蔡 换 ， 将 zy z' 蔡 换 
为 一 个 非 线性 核 <(z, x')， 我 们 有 


从 而 








k(zx, x') = exp 全 a 


3K(T, ZX) 十 上 (zz ) — 2k (2, 2)) (6.20) 





核 观点 的 一 个 重要 的 贡献 是 可 以 扩展 到 符号 化 的 输入 ， 而 不 是 简单 的 实数 向 量 。 核 函数 可 以 
定义 在 多 种 对 象 上 ， 例 如 图 片 、 集 合 、 字 符 串 、 文 本 文档 。 例 如 ， 考 虑 一 个 固定 的 集合 ， 定 义 
一 个 非 向 量 空间 ， 这 个 空间 由 这 个 集合 的 所 有 可 能 的 子 集 构成 。 如 果 A1 和 42 是 两 个 这 样 的 子 
集 ， 那 么 核 的 一 个 简单 的 选择 可 以 是 


k(A1, A2) = 2l4an42| (6.27) 


其 中 41 mn As 表示 集合 41 和 A2 的 交集 ，|4| 表 示 A 的 元 素 的 数量 。 这 是 一 个 合法 的 核 ， 因 为 可 以 
证 明 它 对 应 于 一 个 特征 空间 中 的 一 个 内 积 。 
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构造 核 的 另 一 个 强大 的 方法 是 从 一 个 概率 生成 式 模 型 开始 构造 (Haussler 1999) ， 这 使 得 我 
们 可 以 在 一 个 判别 式 的 框架 中 使 用 生成 式 模 型 。 生 成 式 模型 可 以 自然 地 处 理 缺 失 数据 ， 并 且 在 
隐 马 尔 科 夫 模 型 的 情况 下 ， 可 以 处 理 长 度 变 化 的 序列 。 相 反 ， 判 别 式 模型 在 判别 式 的 任务 中 通 
常会 比 生成 式 模型 的 表现 更 好 。 于 是 ， 将 这 两 种 方法 结合 吸引 了 一 些 人 的 兴趣 (Lasserre et al,， 
2006) 。 一 种 将 二 者 结合 的 方法 是 使 用 一 个 生成 式 模型 定义 一 个 核 ， 然 后 在 判别 式 方 法 中 使 用 
这 个 核 。 

给 定 一 个 生成 式 模型 p(x)， 我 们 可 以 定义 一 个 核 


k(x, x) = p(x)p(2’) (6.28) 


很 明显 ， 这 是 一 个 合法 的 核 ， 因 为 我 们 可 以 把 它 看 成 由 映射 p(z) 定 义 的 一 维特 征 空间 中 的 一 个 
内 积 。 它 表明 ， 如 果 两 个 输入 z 和 zx/ 都 具有 较 高 的 概率 ， 那 么 它们 就 是 相似 的 。 我 们 可 以 使 用 公 
式 (6.13) 和 公式 (6.17) 扩展 这 类 核 。 扩 展 的 方法 是 考虑 不 同 概率 分 布 的 乘积 的 加 和 和 ， 带 有 正 
的 权 值 系数 p(i) ， 形 式 为 

k(z,2) = pzelaple' ap (6.29) 





如 果 不 考虑 一 个 整体 的 乘法 常数 ， 这 个 核 就 等 价 于 一 个 混合 概率 密度 ， 它 可 以 分 解 成 各 个 分 量 
概率 密度 ， 下 标 ;扮演 着 潜在 变量 的 角色 。 如 果 两 个 输入 z 和 z 在 一 大 类 的 不 同 分 量 下 都 有 较 
大 的 概率 ， 那 么 这 两 个 输入 将 会 使 核 函 数 输出 较 大 的 值 ， 因 此 就 表现 出 相似 性 。 在 无 限 求 和 的 
极限 情况 下 ， 我 们 也 可 以 考虑 下 面 形式 的 核 函 数 


二 / | (6.30) 


其 中 z 是 一 个 连续 潜在 变量 。 

现在 假设 我 们 的 数据 由 长 度 为 L 的 有 序 序列 组 成 ， 即 一 个 观测 为 = {21,.…. ,zr}。 对 于 这 
种 序列 ， 一 个 流行 的 生成 式 模型 是 隐 马 尔 科 夫 模型 ， 它 把 概率 p(X ) 表 示 为 对 应 的 隐 含 状态 序 
列 Z = {z1,.…,zL} 上 的 积分 或 求 和 和。 我 们 可 以 使 用 这 种 方法 定义 一 个 核 通 数 来 度量 两 个 序 
列 关 和 头 ' 的 相似 度 。 定 义 核 函 数 的 方法 是 扩展 混合 表示 (6.29) ， 得 到 


K(X,X) = p(X| 2)p(X' | 2)p(2) (6.31) 
Z 


OR 
又 日 ， 序 负 o 
另 一 个 使 用 生成 式 模 型 定义 核 通 数 的 方法 被 称 为 Fisher 核 (Jaakkola and Haussler 1999) 。 

考虑 一 个 参数 生成 式 模 型 p(x | 9)， 其 中 9 表示 参数 的 向 量 。 目 标 是 找到 一 个 核 ， 度 量 这 个 生 
成 式 模型 的 两 个 输入 变量 z 和 z' 之 间 的 相似 性 。Jaakkola and Haussler (1999) 考虑 关于 6 的 梯 
度 ， 它 定义 了 “特征 "空间 的 一 个 向 量 ， 这 个 特征 空间 的 维度 与 9 的 维度 相同 。 特 别 地 ， 它 们 考 
虑 Fisher 得 分 

g(0,7) = Volnp(z | 0) (6.32) 


根据 Fisher 得 分 ，Fisher 核 被 定义 为 
k(x, x’) = g(0, x) Fl1g(0, x’) (6.33) 


这 里 ， 王 是 Fisher 信 息 和 矩阵 (Fisher information matrix) ， 定 义 为 





F = Exlg(0, x£)9(0, x) | (6.34) 


其 中 ， 期 望 是 在 概率 分 布 p(z | 0) 下 关于 z 的 期 望 。 这 样 定 义 的 动机 可 以 从 信息 几何 
(information geometry) 的 角度 看 出 来 (Amari, 1998) ， 它 考虑 了 模型 参数 空间 的 微分 几 
何 。 这 里 ， 我 们 注意 到 ，Fisher 信 息 和 矩阵 的 存在 使 得 这 个 核 在 密度 模型 的 非 线性 重 参数 
化 9 一 W%(9) 下 具有 不 变性 。 
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在 实际 应 用 中 ， 通 常 计算 Fisher 信 息 矩 阵 是 不 可 行 的 。 一 种 方法 是 把 Fisher 信 息 的 定义 中 的 期 
望 蔡 换 为 样本 均值 ， 可 得 





N 
1 
F~ 2 g(0, zn)g(0, rn) (6.35) 
这 是 Fisher 得 分 的 协 方差 矩阵 ， 因 此 Fisher 核 对 应 于 这 些 分 数 的 一 个 漂白 。 更 简单 地 ， 我 们 可 以 
省 略 Fisher 信 息 和 矩阵 ， 使 用 非 不 变 核 


k(x, 2’) = 9g(9,z)79g(0,z) (6.30) 


Hofmann (2000) 给 出 了 Fisher 核 在 文档 抽取 上 的 一 个 应 用 。 
核 函 数 的 最 后 的 一 个 例子 是 sigmoid 核 ， 定 义 为 


k(x, 7) = tanh(az7z' + 0) (6.37) 


它 的 Gram 和 矩阵 通常 不 是 半 正 定 的 。 但 是 这 种 核 在 实际 应 用 中 也 可 以 使 用 (Vapnik, 1995) ， 可 能 
是 因为 它 赋予 核 展开 例如 支持 向 量 机 ) 一 个 与 神经 网 络 模 型 的 表面 的 相似 性 。 正 如 我 们 将 看 
到 的 那样 ， 在 基 函 数 有 无 穷 多 的 极限 情况 下 ， 一 个 具有 恰当 先 验 的 贝 叶 斯 神经 网 络 将 会 变 为 高 
斯 过 程 ， 因 此 这 就 提供 了 神经 网 络 与 核 方 法 之 间 的 一 个 更 深层 的 联系 。 


6.3” 径 问 基 录 数 网 络 


在 第 3 章 ， 我 们 讨论 了 基于 固定 基 轴 数 的 线性 组 合 的 回归 模型 ， 但 是 我 们 没有 详细 讨论 可 以 
取 哪 种 形式 的 基 范 数 。 一 种 广泛 使 用 的 基 函 数 是 径 疝 基 轴 数 (radial basis functions) 。 径 向 基 
前 数 中 ， 每 一 个 基 浮 数 只 依赖 于 样本 和 中 心 jj 之 间 的 径 向 距离 (通常 是 欧 儿 里 得 距离 ) ， 
Bo;(z) = h(z 一 Hi。 

历史 上 ， 径 向 基 本 数 被 用 来 进行 精确 的 函数 内 捅 (Powel 1987) 。 给 定 一 组 输入 向 
量 {z1,.…. ,ZN} 以 及 对 应 的 目标 值 {本 ,.…. ,tN}， 目标 是 找到 一 个 光滑 的 函数 1(z)， 它 能 够 精确 
地 拟 合 每 个 目标 值 ， 即 对 于 n = 1,...,N， 都 有 f(zn) = tn。 可 以 这 样 做 : 将 f(x) 表示 为 径 向 基 
函数 的 线性 组 合 ， 每 个 径 向 基 函 数 都 以 数据 点 为 中 心 ， 即 





N 
f(z) = >》 wnhllle — wnll) (6.38) 
n=1 


系数 {wn} 的 值 由 最 小 平方 方法 求 出 。 并 且 ， 由 于 具有 与 系数 数量 相同 的 限制 条 件 ， 因 此 结果 是 
一 个 能 够 精确 拟 合 每 个 目标 值 的 函数 。 但 是 ， 在 模式 识别 应 用 中 ， 目 标 值 通常 带 有 噪声 ， 精 确 
内 插 不 是 我 们 想 要 的 ， 因 为 这 对 应 于 一 个 过 拟 合 的 解 。 

对 径 向 基 男 数 的 展开 来 自 正则 化 理论 (Poggio and Girosi, 1990; Bishop, 1995a) 。 对 于 一 个 使 
用 微分 算 符 定义 的 带 有 正则 化 项 的 平方 和 误差 国 数 ， 最 优 解 可 以 通过 对 算 符 的 Green 函数 (类 似 
于 离散 矩阵 的 特征 向 量 ) 进行 展开 ， 每 个 数据 点 有 一 个 基 画 数 。 如 果 微 分 算 符 是 各 向 同性 的 ， 
那么 Green 函 数 只 依赖 于 与 对 应 的 数据 点 的 径 向 距离 。 由 于 正则 化 项 的 存在 ， 因 此 解 不 再 精确 地 
对 训练 数据 进行 内 插 。 

径 向 基 函 数 的 另 一 个 研究 动机 来 源 于 输入 变量 (而 不 是 目标 变量 ) 具有 噪声 时 的 内 插 问题 
(Webb, 1994; Bishop, 1995a) 。 如 果 输 入 变量 z 上 的 噪声 由 一 个 服从 分 布 x(6) 的 变量 上 描述 ， 那 
么 平方 和 误差 函数 就 变 成 了 








1 N 
Ba [Went -te) aé (6.39) 
使 用 变 分 法 ,我 们 可 以 关于 函数 y(z) 进 行 最 优化 ， 得 到 
N 
WE = > i = (6.40) 
n=1 
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图 6.2: 左 图 给 出 了 一 组 高 斯 基 函 数 的 图 像 ， 右 图 给 出 了 对 应 的 归 一 化 的 基 函 数 的 图 像 。 





其 中 基 函 数 为 

Z(Z 一 Zn) 
有 JE Z(Z 一 Zn) 
我 们 看 到 这 是 一 个 以 每 个 数据 点 为 中 心 的 基 函 数 。 这 被 称 为 Nadaraya-Watson 模 型 。 在 6.3.1 节 ， 
我 们 会 从 一 个 不 同 的 角度 再 次 推导 出 这 个 模型 。 如 果 噪 声 分 布 v(&) 是 各 向 同性 的 ， 即 它 只 
是 | 的 一 个 函数 ， 那 么 基 轴 数 就 是 径 向 的 。 

注意 ， 基 男 数 (6.41) 是 归 一 化 的 ， 即 对 于 所 有 的 z 值 都 有 >j, h(x 一 zn) 二 1。 这 种 归 一 化 
的 效果 如 图 6.2 所 示 。 有 时 在 实际 应 用 中 会 用 到 归 一 化 ， 因 为 它 避 免 了 输入 空间 中 存在 所 有 的 基 
函数 全 部 取 较 小 值 的 区 域 ， 这 种 区 域 会 导致 在 这 些 区 域 的 预测 值 过 小 ， 或 者 完全 由 基 参 数控 
制 。 

另 一 个 展开 归 一 化 径 向 基 函 数 的 情况 是 把 核 密度 估计 应 用 到 回归 问题 中 ， 正 如 我 们 将 在 6.3.1 
节 讨 论 的 那样 。 

由 于 每 一 个 数据 点 都 关联 了 一 个 基 函 数 ， 因 此 当 对 于 新 的 数据 点 进行 预测 时 ， 对 应 的 模型 
的 计算 开销 会 非常 大 。 因 此 ， 一 些 新 的 模型 被 提出 来 (Broomhead and Lowe, 1988; Moody and 
Darken, 1989; Poggio and Girosi, 1990) ， 这 些 模型 仍然 对 径 向 基 函 数 进行 展开 ,但 是 基 函 数 的 
数量 M 要 小 于 数据 点 的 数量 N。 通 常 ， 基 函数 的 数量 ， 以 及 它们 的 中 心 ;， 都 只 是 基于 输入 数 
据 {zn} 自 身 来 确定 。 然 后 基 函 数 被 固定 下 来 ， 系数 {wi} 由 最 小 平方 方法 通过 解 线性 方程 的 方式 
确定 ， 正 如 3.1.1 节 讨论 的 那样 。 

选择 基 函 数 中 心 的 一 种 最 简单 的 方法 是 使 用 数据 点 的 一 个 随机 选择 的 子 集 。 一 个 更 加 系统 化 
的 方法 被 称 为 正 交 最 小 平方 〈Chen et al., 1991) 。 这 是 一 个 顺序 选择 的 过 程 ， 在 每 一 个 步骤 
中 ， 被 选择 作为 基 函 数 的 下 一 个 数据 点 对 应 于 能 够 最 大 程度 减 小 平方 和 误差 的 数据 点 。 展 开 系 
数值 的 确定 是 算法 的 一 部 分 。 还 可 以 使 用 聚 类 算法 〈 例 如 天 均值 算法 ) ， 这 时 得 到 的 一 组 基 函 
数 中 心 不 再 与 训练 数据 点 重合 。 





h(x 一 Zn) = (6.41) 


6.3.1 Nadaraya-Watson 模 型 

在 3.3.3 节 ， 我 们 看 到 ， 对 于 新 的 输入 z， 线 性 回归 模型 的 预测 的 形式 为 训练 数据 集 的 目标 值 
的 线性 组 合 ， 组 合 系数 由 “等 价 核 (3.62) 给 出 ， 其 中 等 价 核 满足 加 和 限制 (3.64) 。 

我 们 可 以 从 核 密度 估计 开始 ， 以 一 个 不 同 的 角度 研究 核 回归 模型 (3.61) 。 假 设 我 们 有 一 个 
训练 集 {zn 如 }， 我 们 使 用 Parzen 密 度 估计 来 对 联合 分 布 P(z, 娘 进行 建 模 ， 即 


N 
p(z,t) > f(z 一 mt 一 tn) (6.42) 
n=1 





其 中 f(x, 是 分 量 密度 函数 ， 每 个 数据 点 都 有 一 个 以 数据 点 为 中 心 的 这 种 分 量 。 我 们 现在 要 找 
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到 回归 通 数 y(z) 的 表达 式 ， 对 应 于 以 输入 变量 为 条 件 的 目标 变量 的 条 件 均值 ， 它 的 表达 式 为 














yz) = 可 | 可 = 人 tltln) a 
_ 名 名 用 二 
加 [p(x,t) dt 
二 > tf (x — Tn,t — tn) dt 
Dn FF — Em,t— tm) dt 


简单 起 见 ， 我 们 现在 假设 分 量 的 密度 函数 的 均值 为 零 ， 即 


(6.43) 





广 f(x,t)t dt=0 (6.44) 


对 所 有 的 z 都 成 立 。 使 用 一 个 简单 的 变量 替换 ， 我 们 有 


> 9(F — Pn)tn 
(7z)= 和 Re 
Sm 一 Lm) (6.45) 


>， k(z, Pn)tn 


其 中 n,m = 1,...,N， 且 核子 数 k(z, zn) 为 





= g(x Tn) 
k(z, Tn) = a (6.40) 
并 且 我 们 定义 了 _ 
g(z2) = f(x,t) dt (6.47) 


公式 (6.45) 给 出 的 结果 被 称 为 Nadaraya-Watson 模 型 ， 或 者 称 为 核 回 归 (kernel regression ) 
(Nadaraya, 1964; Watson, 1964) 。 对 于 一 个 局 部 核 函 数 ， 它 的 性 质 为 : 给 距离 zx 较 近 的 数据 
点 zn 较 高 的 权重 。 注 意 ， 核 (6.46) 满足 加 和 限制 


N 
> k(ziT) SL 
n=1 


事实 上 ， 这 个 模型 不 仅 定 义 了 条 件 期 望 ， 还 定义 了 整个 条 件 概 率 分 布 


四 p(t, zx) 四 Sf (= t= tn) 
[pt,x) dt > 人 zz 一 如) 二 


根据 这 个 表达 式 ， 其 他 的 期 望 也 可 以 计算 。 

为 了 举例 说 明 ， 我 们 考虑 一 元 输入 变量 z 的 情形 ， 其 中 帮 z, 力 由 变量 z = (x,t) 上 的 一 个 零 均 
值 各 向 同性 的 高 斯 分 布 给 出 ， 方 差 为 c*。 对 应 的 条 件 分 布 (6.48) 由 高 斯 混合 模型 给 出 。 图 6.3 
展示 了 对 于 正弦 曲线 人 工 生 成 数据 集 ， 这 个 条 件 分 布 的 情况 以 及 它 的 均值 。 

这 个 模型 的 一 个 明显 的 推广 是 允许 形式 更 灵活 的 高 斯 分 布 作为 其 分 量 ， 例 如 让 输入 和 目标 值 
具有 不 同方 差 。 更 一 般 地 ， 我 们 可 以 使 用 高 斯 混合 模型 对 联合 分 布 p(t, z) 建 模 ， 这 个 混合 高 斯 
模型 使 用 第 9 章 讨 论 的 方法 训练 (Ghahramani and Jordan, 1994) ， 然 后 找到 对 应 的 条 件 概 率 分 
布 p(t | x)。 在 后 一 种 情况 中 ， 模 型 不 再 由 训练 数据 点 处 的 核 函 数 表示 ， 但 是 混合 模型 中 分 量 的 
个 数 会 小 于 训练 数据 点 的 个 数 ， 从 而 使 得 生成 的 模型 对 于 测试 数据 点 能 够 更 快 地 计算 。 为 了 能 
够 生成 一 个 预测 速度 较 快 的 模型 ， 我 们 可 以 接受 训练 阶段 的 计算 开销 。 











p(t | 2) (6.48) 
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图 6.3: 使 用 各 向 同性 的 高 斯 核 的 Nadaraya-Watson 核 回归 模型 的 说 明 。 数 据 集 为 正 弱 数 据 集 。 原 始 的 正 
函数 由 绿色 曲线 表示 ， 数 据点 由 蓝 色 的 点 表示 ， 每 个 数据 点 是 一 个 各 向 同性 的 高 斯 核 的 中 心 。 得 到 的 回 
归 函 数 ， 由 条 件 均 值 给 出 ， 用 红线 表示 。 同 时 给 出 的 还 有 条 件 概 率 分布 ptt | z) 的 两 个 标准 差 的 区 域 ， 用 
红色 阴影 表示 。 在 每 个 数据 点 周围 的 蓝 色 椭圆 给 出 了 对 应 的 核 的 一 个 标准 差 轮廓 线 。 由 于 水 平 轴 和 垂直 
轴 的 标 度 不 同 ， 这 些 轮廓 线 似乎 不 是 圆 形 的 。 





6.4 高 斯 过 程 


在 6.1 节 ， 通 过 将 对 偶 性 的 概念 应 用 于 回归 的 非 概率 模型 ， 我 们 引出 了 核 的 概念 。 这 里 ， 我 
们 把 核 的 角色 推广 到 概率 判别 式 模型 中 ， 引 出 了 高 斯 过 程 的 框架 。 于 是 ， 我 们 会 看 到 在 贝 叶 斯 
方法 中 ， 核 是 如 何 自然 地 被 引入 的 。 

在 第 3 章 ， 我 们 考虑 了 线性 回归 模型 ， 形 式 为 ytz,w) = w 79(z)， 其 中 ww 是 一 个 参数 向 
量 ，9(z) 是 一 个 与 输入 向 量 z 相 关 的 固定 非 线性 基 函 数 向 量 。 我 们 证 明了 ，w 上 的 先 验 分 布 会 
产生 函数 y(x,w) 上 的 一 个 对 应 的 先 验 分 布 。 给 定 一 个 训练 数据 集 ， 我 们 计算 w 上 的 后 验 概率 分 
布 ， 从 而 就 得 到 和 回归 函数 的 对 应 的 后 验 概率 分 布 。 回 归 函 数 反 过 来 ( 释 加 上 噪声 ) 表示 了 对 
于 新 输入 向 量 z 的 一 个 预测 分 布 p(t | z)。 

在 高 斯 过 程 的 观点 中 ， 我 们 抛弃 参数 模型 ， 直 接 定义 函数 上 的 先 验 概率 分 布 。 乍 一 看 来 ， 在 
函数 组 成 的 不 可 数 的 无 穷 空间 中 对 概率 分 布 进行 计算 似乎 很 困难 。 但 是 ， 正 如 我 们 将 看 到 的 那 
样 ， 对 于 一 个 有 限 的 训练 数据 集 ， 我 们 只 需要 考虑 训练 数据 集 和 测试 数据 集 的 输入 zn 处 的 函数 
值 即 可 ， 因 此 在 实际 应 用 中 我 们 可 以 在 有 限 的 空间 中 进行 计算 。 

等 价 于 高 斯 过 程 的 模型 在 许多 不 同 领域 被 广泛 研究 。 例 如 ， 在 统计 地 质 学 中 文 
献 中 ， 高 斯 过 程 回 归 被 称 为 kriging (Cressie, 1993) 。 类 似 地 ，ARMA (自动 回归 移动 平 
均 ) 模型 、Kalman 滤 波 以 及 径 向 基 函 数 网 络 都 可 以 被 看 成 高 斯 过 程 模型 的 形式 。 关 
于 从 机 器 学 习 的 角度 对 高 斯 过 程 的 回顾 ， 可 以 参考 MacKay (1998) 、Williams (1999) 
和 MacKay (2003) 。Rasmussen (1996) 给 出 了 一 个 不 同 的 方法 来 对 各 个 高 斯 过 程 模 型 进行 对 
比 。 有 关 高 斯 过 程 的 最 近 的 教科 书 ， 可 以 参考 Rasmussen and Williams (2006) 。 


6.4.1 重新 考虑 线性 回归 问题 
为 了 引出 高 斯 过 程 的 观点 ， 让 我 们 回 到 线性 回归 的 例子 中 ， 通 过 对 函数 V(z,w) 的 计算 ， 重 
新 推导 出 预测 分 布 。 这 会 给 出 高 斯 过 程 的 一 个 具体 的 例子 。 
考虑 一 个 模型 M ， 它 被 定义 为 由 向 量 (z) 的 元 素 给 出 的 M 个 固定 基 函 数 的 线性 组 合 ， 即 
V(z) = 0(z) (6.49) 


其 中 z 是 输入 向 量 ，w 是 MM 维权 向 量 。 现 在 ， 考 虑 w 上 的 一 个 先 验 概率 分 布 ， 这 个 分 布 是 一 个 各 
向 同性 的 高 斯 分 布 ， 形 式 为 








p(w) = N(w | 0,a 7) (6.50) 
它 由 一 个 超 参数 a 控制 ， 这 个 超 参 数 表示 分 布 的 精度 (方差 的 倒数 ) 。 对 于 任意 给 定 的 w， 公 式 
(6.49) 定义 了 z 的 一 个 特定 的 函数 。 于 是 ， 公 式 (6.50) 定义 的 w 上 的 概率 分 布 就 产生 了 一 个 
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图 6.4: 左 图 为 高 斯 核 的 高 斯 过 程 的 样本 ， 右 图 为 指数 核 的 高 斯 过 程 的 样本 。 


函数 y(z) 上 的 一 个 概率 分 布 。 在 实际 应 用 中 ， 我 们 希望 计算 这 个 函数 在 某 个 具体 的 z 处 的 函数 
值 ， 例 如 在 训练 数据 点 x1,...,zN 处 的 函数 值 。 于 是 我 们 感 兴趣 的 是 函数 值 y(z1),.….,y(zN) 的 
概率 分 布 。 我 们 把 函数 值 的 集合 记 作 向 量 y， 它 的 元 素 为 yn = y(zn)， 其 中 nn = 1,...,N。 根 据 
公式 (6.49) ， 这 个 向 量 等 于 

y= Bw (6.51) 


其 中 再 是 设计 和 矩阵， 元素 为 到 wx = Pr(zn)。 我 们 可 以 用 下 面 的 方式 找到 y 的 概率 分 布 。 首 先 ， 我 
们 注意 到 y 是 由 w 的 元 素 给 出 的 服从 高 斯 分 布 的 变量 的 线性 组 合 ， 因 此 它 本 身 是 服从 高 斯 分 布 。 
于 是 ,我 们 只 需要 找到 它 的 均值 和 方差 。 根 据 公式 (6.50) ,均值 和 方差 为 





























Ely] = BElw] = 0 (6.52) 
cov[y] = Elyy’| = BEhww’]®’ = EET =K (6.53) 

其 中 ， 天 是 Gram 矩阵 ， 元 素 为 
-es TG(2n)’ Blem) (6.5 


k(z, 2) 是 核 函 数 。 

这 个 模型 给 我 们 提供 了 高 斯 过 程 的 一 个 具体 的 例子 。 通 常 来 说 ， 高 斯 过 程 被 定义 为 函 
数 y(z) 上 的 一 个 概率 分 布 ， 使 得 在 任意 点 集 z1,...,zN 处 计算 的 y(z) 的 值 的 集合 联合 起 来 服 
从 高 斯 分 布 。 在 输入 向 量 z 是 二 维 的 情况 下 ， 这 也 可 以 被 称 为 高 斯 随机 场 (Gaussian random 
field) 。 更 一 般 地 ， 可 以 用 一 种 合理 的 方式 为 y(zl),………,y(zN) 赋 予 一 个 联合 的 概率 分 布 ， 来 确 
定 一 个 随机 过 程 (stochastic process) V(zZ)。 

高 斯 随机 过 程 的 一 个 关键 点 是 入 个 变量 yi,... ,yn 上 的 联合 概率 分 布 完 全 由 二 阶 统 计 ( 即 均 
值 和 协 方 差 ) 确定 。 在 大 部 分 应 用 中 ， 我 们 关于 y(z) 的 均值 没有 任何 先 验 的 知识 ， 因 此 根据 对 
称 性 ， 我 们 令 其 等 于 零 。 这 等 价 于 基 函 数 的 观点 中 ， 令 权 值 pz(ao | a) 的 先 验 概率 分 布 的 均值 等 于 
零 。 之 后 ， 高 斯 过 程 的 确定 通过 给 定 两 个 z 处 的 函数 值 y(z) 的 协 方 差 来 完成 。 这 个 协 方差 由 核 函 
数 确定 




















Ely(zn)y(Zm)| 一 有 (Zn Pm) (6.55) 


对 于 由 公式 (6.49) 定义 的 带 有 权 值 先 验 (6.50) 的 线性 回归 模型 来 说 ， 核 函数 为 (6.54) 。 

我 们 也 可 以 直接 定义 核 函 数 ， 而 不 是 间接 地 通过 选择 基 函 数 。 图 6.4 给 出 了 对 于 两 个 不 同 的 
核 通 数 ， 由 高 斯 过 程 产 生 的 函数 的 样本 。 第 一 个 核 函 数 是 公式 (6.23) 定义 的 高 斯 核 ， 第 二 个 核 
函数 是 指数 核 ， 定 义 为 

k(x, x’) = exp(—0|z 一 2 (6.50) 
它 对 应 于 Ornstein-Uhlenbeck 过 程 。 这 个 随机 过 程 最 开始 由 Uhlenbeck and Ornstein (1993) 提 
出 ， 用 来 描述 布朗 运动 。 
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6.4.2 用 于 回归 的 高 斯 过 程 
为 了 把 高 斯 过 程 模 型 应 用 于 回归 问题 ， 我 们 需要 考虑 观测 目标 值 的 噪声 ， 形 式 为 
tn = Yn En (6.57) 
其 中 = y(zn)，en 是 一 个 随机 噪声 变量 ， 它 的 值 对 于 每 个 观测 nn 是 独立 的 。 这 里 ， 我 们 要 考 上 不 
服从 高 斯 分 布 的 噪声 过 程 ， 即 
p(tn | yn) = N (tn | or; 6B 1) (6.58) 
其 中 6 是 一 个 超 参数 ， 表 示 品 声 的 精度 。 由 于 噪声 对 于 每 个 数据 点 是 独立 的 ， 因 此 
以 y = (y1,.….,yN) 为 条 件 ， 目 标 值 t = (1,.….,tn) 的 联合 概率 分 布 是 一 个 各 向 同性 的 高 斯 分 


布 ， 形式 为 
pt|y)=N(t |y,B IN) (6.59) 


其 中 Tn 表示 一 个 N x NN 的 单位 矩阵 。 根 据 高 斯 过 程 的 定义 ， 边缘 概 率 分 布 p(y) 是 一 个 高 斯 分 
布 ， 均 值 为 零 ， 协 方差 由 Gram 矩阵 玉 定 义 ， 即 


p(y) = N(y | 0,K) (6.60) 
确定 天 的 核 函 数 通常 被 选择 成 能 够 表示 下 面 的 性 质 : 对 于 相似 的 点 zn 和 zm， 对 应 的 
值 y(zw 和 yy(zm) 的 相关 性 要 大 于 不 相似 的 点 。 这 里 ， 相 似 性 的 概念 取决 于 实际 应 用 。 


为 了 找到 以 输入 值 21,.…. ,ZN 为 条 件 的 边缘 概率 分 布 ptt) ， 我 们 需要 对 y 积 分 。 可 以 通过 使 用 
2.3.3 节 的 线性 高 斯 模型 的 结果 来 完成 。 使 用 公式 (2.115) ， 我 们 看 到 t 的 边缘 概率 分 布 为 


p(t) = / plt | y)ply) dy = N(t | 0,C) (6.61) 

其 中 协 方差 矩阵 C 的 元 素 为 
C(xn, Fm) = k(xn, Lm) + B16nm (6.62) 
这 个 结果 反映 了 下 面 的 事实 : 两 个 随机 的 高 斯 分 布 〔 即 与 y(z) 相 关 的 高 斯 分 布 和 与 相关 的 高 斯 


分 布 ) 是 独立 的 ， 因 此 它们 的 协 方 差 可 以 简单 地 相 加 。 
对 于 高 斯 过 程 回归 ， 一 个 广泛 使 用 的 核 函数 的 形式 为 指数 项 的 二 次 型 加 上 常数 和 线性 项 ， 即 





K(Zn, Tm) = 00 exp 人 有 一 on + 02 十 03z7zm (6.63) 


注意 ， 涉 及 到 0 的 项 对 应 于 一 个 参数 模型 ， 这 个 模型 是 输入 变量 的 线性 函数 。 图 6.5 给 出 了 不 同 
的 参数 00,.…. ,93 的 情况 下 ， 这 个 先 验 的 图 像 。 图 6.6 给 出 了 一 组 从 概率 分 布 (6.60) 中 取样 的 样 
本 点 ， 以 及 由 公式 (6.61) 定义 的 对 应 的 值 。 

目前 为 止 ， 我 们 已 经 使 用 高 斯 过 程 的 观点 来 构建 数据 点 的 集合 上 的 联合 概率 分 布 的 模型 。 然 
而 ， 我 们 在 回归 问题 中 的 目标 是 在 给 定 一 组 训练 数据 的 情况 下 ， 对 新 的 输入 变量 预测 目标 变量 
的 值 。 让 我 们 假设 tv = (1,.….,tN)*， 对 应 于 输入 值 z1,.…. ,ZN， 组 成 观测 训练 集 ， 并 且 我 们 
的 目标 是 对 于 新 的 输入 向 量 zw+1 预 测 目标 变量 tw+l。 这 要 求 我 们 计算 预测 分 布 p(tw+l | tw)。 
注意 ， 这 个 分 布 还 要 以 变量 21,.…. ,XN 和 ZzN+1 为 条 件 。 但 是 为 了 记号 的 简介 ， 我 们 不 会 显 式 地 
写 出 这 些 条 件 变量 。 

为 了 找到 条 件 分 布 ptw+l |t)， 我 们 首先 写 下 联合 概率 分 布 p(tw+1)， 其 中 tNy+1 表 示 向 
量 ( 嫉 ,.….,tN,tN41)*。 然 后 ， 我 们 利用 2.3.1 节 的 结果 来 得 到 所 求 的 条 件 概 率 分 布 ， 如 图 6.7 所 
示 。 

根据 公式 (6.61) ,六 …tN+1 的 联合 概率 分 布 为 


ptw+l) = Ntw+l| 0,CN+1) (6.64) 
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图 6.5: 由 协 方差 函数 (6.63) 定义 的 高 斯 过 程 先 验 的 样本 。 每 张 图 上 方 的 标题 表示 (bo, 01, 02, 03)。 











一 | 0 代 


jk 


图 6.6: 高 斯 过 程 的 数据 点 {tw} 的 取样 的 说 明 。 蓝 色 曲 线 给 出 了 函数 上 的 高 斯 过 程 先 验 的 一 个 样本 函数 ， 
红 点 表示 计算 函数 在 一 组 输入 值 {2n,} 上 计算 得 到 的 函数 值 y,。 对 应 的 {t,} 的 值 ， 用 绿色 表示 ， 可 以 通过 
对 每 个 {yn} 添 加 独立 噪声 的 方式 得 到 。 
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图 6.7: 高 斯 过 程 回归 的 原理 说 明 ， 其 中 只 有 一 个 训练 点 和 一 个 测试 点 ， 红 色 椭 圆 表示 联合 概率 分 
布 p(t1,t2) 的 轮廓 线 。 这 里 ， 妇 是 训练 数据 点 。 以 厂 为 条 件 〈 蓝 色 直 线 ) ,我们 得 到 了 p(t2 | 三)。 绿 色 曲 
线 表示 它 关 于 如 的 函数 。 





其 中 CN+1 是 一 个 (IN 十 1) x (N 十 J) 的 协 方差 矩阵 ， 元 素 由 公式 (6.62) 给 出 。 由 于 这 个 联合 分 


布 是 高 斯 分 布 ， 因 此 我 们 可 以 使 用 2.3.1 节 的 结果 得 到 条 件 高 斯 分 布 。 为 了 完成 这 一 点 ,我 们 将 
协 方差 矩阵 分 块 如 下 
Cw+l= ( 夸 和 (6.65) 


其 中 Cw 是 一 个 N x N 的 协 方差 矩阵 ， 元 素 由 公式 (6.62) 给 出 ， 其 中 n,m = 1,.…., 和 NN， 向 量 k 的 
元 素 为 k(xn, xXN+41)， 其 中 n = 1,...,N， 标量 c = k(xN41,ZN+41) 十 861。 使 用 公式 (2.81) 和 
公式 (2.82) ,我 们 看 到 条 件 概 率 分 布 p(tin+1 |t) 是 一 个 高 斯 分 布 ， 均 值 和 协 方差 为 


m(zZN41) = k Cnt (6.60) 
oz(zNwH) 一 cc 一 KRCNK (6.67) 


这 些 是 定义 高 斯 过 程 回归 的 关键 结果 。 由 于 向 量 k 是 测试 点 输入 值 zy+1 的 函数 ， 因 此 我 们 看 到 
预测 分 布 是 一 个 高 斯 分 布 ， 它 的 均值 和 方差 都 依赖 于 zw+l1。 图 6.8 给 出 了 高 斯 过 程 回 归 的 一 个 例 
子 。 
核 函 数 的 唯一 的 限制 是 公式 (6.62) 给 出 的 协 方 差 矩 阵 一 定 是 正定 的 。 如 果 》X 是 五 的 一 个 
特征 值 ， 那 么 C 的 对 应 的 特征 值 就 是 X + 6 一 。 因 此 可 以 证 明 对 于 任意 点 对 zn 和 zm， 核 矩 
阵 k(zn, zm) 一 定 是 半 正 定 的 ， 即 Xi; > 0， 因 为 任何 等 于 零 的 特征 值 Ni 仍然 会 产生 出 C 的 一 个 正 
的 特征 值 ， 因 为 6 > 0。 这 个 限制 条 件 与 之 前 讨论 的 核 函 数 的 限制 条 件 相 同 ， 因 此 我 们 可 以 再 次 
利用 6.2 节 的 所 有 方法 构造 恰当 的 核 。 
注意 ， 预 测 分 布 的 均值 (6.66) 可 以 写成 ZN+1 的 函数 ， 形 式 为 


N 
(mien) = >》 n(n (6.68) 
n=1 


其 中 an 是 CW t 的 第 n 个 元 素 。 如 果 核 函数 k(xn, zm) 只 依赖 于 距离 |zn 一 zm|| ， 那 么 我 们 就 得 到 
了 径 向 基 沙 数 的 一 个 展开 。 

公式 (6.66) 和 公式 (6.67) 的 结果 定义 了 具有 任意 核 函数 k(x, 2 ) 的 高 斯 过 程 回 妇 。 在 特殊 
情况 下 ， 如 果 核 函数 k(x, zz ) 根 据 基 函 数 的 有 限 集 定义 ， 那 么 我 们 就 可 以 从 高 斯 过 程 的 观点 开 
始 ， 推 导出 之 前 在 3.3.2 节 得 到 的 线性 回归 的 结果 。 
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图 6.8: 高 斯 过 程 回归 应 用 于 图 A.6 的 正弦 数据 集 的 说 明 ， 其 中 三 个 最 右 侧 的 点 被 略 去 。 绿 色 曲 线 给 出 了 正 
弦 函 数 ， 其 中 数据 点 〈 蓝 色 点 ) 通过 对 这 个 函数 取样 并 且 添 加 高 斯 噪声 的 方式 得 到 。 红 线 表 示 高 斯 过 程 
预测 分 布 的 均值 ， 阴 影 区 域 对 应 于 两 个 标准 差 的 位 置 。 注 意 在 数据 点 的 右 侧 区 域 ， 不 确定 性 是 如 何 增 加 
的 。 


因此 对 于 这 种 模型 ， 我 们 既 可 以 通过 参数 空间 的 观点 使 用 线性 回归 的 结果 得 到 预测 分 布 ， 也 
可 以 通过 函数 空间 的 观点 使 用 高 斯 过 程 的 结果 得 到 预测 分 布 。 

使 用 高 斯 过 程 的 核心 计算 涉及 到 对 N x N 的 矩阵 求 逆 。 标 准 的 矩阵 求 逆 方 法 需要 O(N5) 次 计 
算 。 相 反 ， 在 基 函 数 模型 中 ， 我 们 要 对 一 个 M x M 的 矩阵 SN 求 道 ， 这 需要 O(M5) 次 计算 。 注 
意 ， 对 于 两 种 观点 来 说 ， 给 定 训 练 数据 ， 和 矩阵 求 逆 的 计算 必须 进行 一 次 。 对 于 每 个 新 的 测试 数 
据 ， 两 种 方法 都 需要 进行 向 量 - 算 阵 的 乘法 ， 这 在 高 斯 过 程 中 需要 O(N?*) 次 计算 ， 在 线性 基 浮 数 
模型 中 需要 O(M?) 次 计算 。 如 果 基 函数 的 数量 M 比 数据 点 的 数量 N 小 ， 那 么 使 用 基 浮 数 框架 计 
算 会 更 高 效 。 但 是 ， 高 斯 过 程 观 点 的 一 个 优点 是 ， 我 们 可 以 处 理 那 些 只 能 通过 无 穷 多 的 基 函 数 
表达 的 协 方差 函数 。 

但 是 ， 对 于 大 的 训练 数据 集 ， 直 接应 用 高 斯 过 程 方法 就 变 得 不 可 行 了 ， 因 此 一 系列 近似 的 方 
法 被 提出 来 。 与 精确 的 方法 相 比 ， 这 些 近 似 的 方法 关于 训练 数据 集 的 规模 有 着 更 好 的 时 间 复 杂 
度 (Gibbs, 1997; Tresp, 2001; Smola and Bartlett, 2001; Williams and Seeger, 2001; Csat6é and Opper, 
2002; Seeger et al., 2003) 。 

我 们 已 经 介绍 了 单一 目标 变量 的 高 斯 过 程 回 归 。 扩 展 到 多 个 目标 变量 的 情形 (被 称 
为 co-kriging) 是 很 直接 的 (Cressie, 1993) 。 也 可 以 将 高 斯 过 程 回归 进行 各 种 其 他 的 扩展 ， 用 
于 对 无 监督 学 习 的 低 维 流 形 上 的 概率 分 布 建 模 (Bishop et al., 1998a) 以 及 解决 随机 微分 方程 
(Graepel, 2003) 。 








6.4.3 学 习 超 参数 


高 斯 过 程 模型 的 预测 部 分 依赖 于 协 方差 函数 的 选择 。 在 实际 应 用 中 ， 我 们 不 固定 协 方 差 函 
数 ， 而 是 更 喜欢 使 用 一 组 带 有 参数 的 函数 ， 人 然后 从 数据 中 推断 参数 的 值 。 这 些 参数 控制 了 相关 
性 的 长 度 缩放 以 及 噪声 的 精度 等 等 ， 对 应 于 标准 参数 模型 的 超 参数 。 

学 习 超 参数 的 方法 基于 计算 似 然 函数 p(t | 0)， 其 中 6 表示 高 斯 过 程 模型 的 超 参数 。 最 简单 的 
方法 是 通过 最 大 化 似 然 函数 的 方法 进行 6 的 点 估计 。 由 于 6 表示 回归 问题 的 一 组 超 参数 ， 因 此 这 
可 以 看 成 类 似 于 线性 回归 模型 的 第 二 类 最 大 似 然 步骤 。 可 以 使 用 高 效 的 基于 梯度 的 最 优化 算法 
(例如 共 斩 梯 度 法 ) 来 最 大 化 对 数 似 然 函 数 (Fletcher, 1987; Nocedal and Wright, 1999; Bishop 
and Nabney, 2008) 。 

使 用 多 元 高 斯 分 布 的 标准 形式 ， 高 斯 过 程 模 型 的 对 数 似 然 函 数 很 容易 计算 。 对 数 似 然 函 数 的 
形式 为 

lInp(t | 0) = -3 lIn|Cw|— SOR 一 In(27) (6.69) 
对 于 非 线 性 最 优化 ， 我 们 也 需要 对 数 似 然 函数 关于 参数 向 量 9 的 梯度 。 我 们 假设 计算 Cn 的 导数 
是 比较 简单 的 ， 它 就 是 本 章 中 讨论 的 协 方差 函数 的 情形 。 使 用 公式 (C.21) 给 出 的 CN 的 导数 
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图 6.9: 来 自 高 斯 过 程 的 ARD 先 验 的 样本 ， 其 中 核 函 数 由 公式 (6.71) 给 出 。 左 图 对 应 于 m1 = m2 = 1， 夺 
图 对 应 于 m1 = 1,72 = 0.01。 


的 结果 ， 以 及 公式 (C.22) 给 出 的 jn |Cw| 的 结果 ， 我 们 有 


Bm Pt 0) = 3T (CN) + on cm (6.70) 
由 于 ln p(t | 0) 通常 是 一 个 非 凸 函数 ， 因 此 它 由 多 个 极 大 值 点 。 

引入 一 个 9 上 的 先 验 分 布 然后 使 用 基于 梯度 的 方法 最 大 化 对 数 后 验 是 很 容易 的 。 在 一 个 纯粹 
的 贝 叶 斯 方法 中 ， 我 们 需要 计算 6 的 边缘 概率 ， 乘 以 先 验 概率 p(0) 和 似 然 函 数 ptt | 0)。 然 而 ， 通 
常 精确 的 积分 或 者 求 和 是 不 可 行 的 ， 我们 必须 进行 近似 。 

高 斯 过 程 回 归 模 型 给 出 的 预测 分 布 的 均值 和 方差 是 输入 向 量 z 的 函数 。 然 而 ， 我 们 已 经 假定 
由 参数 2 控制 的 附加 噪声 对 预测 方差 的 贡献 是 常数 。 对 于 一 些 被 称 为 异 方差 (heteroscedastic ) 
的 问题 ， 噪 声 方差 本 身 也 依赖 于 z。 为 了 对 这 种 问题 进行 建 模 ， 我 们 可 以 对 高 斯 过 程 框架 进行 
推广 ， 引 入 第 二 个 高 斯 过 程 来 表示 6 对 于 输入 zx 的 依赖 性 (Goldberg et al., 1998) 。 由 于 6 是 一 个 
方差 ， 因 此 是 非 负 的 ， 所 以 我 们 使 用 高 斯 过 程 来 对 ln 8(z) 进 行 建 模 。 


6.4.4 自动 相关 性 确定 


在 前 一 节 里 ， 我 们 看 到 最 大 似 然 方法 如 何 被 用 于 确定 高 斯 过 程 中 的 长 度 缩放 参数 的 值 。 通 过 
为 每 个 输入 变量 整合 一 个 单独 的 参数 ， 这 种 方法 可 以 很 有 用 地 推广 (Rasmussen and Williams， 
2006) 。 正 如 我 们 将 看 到 的 那样 ， 这 样 做 的 结果 是 ， 通 过 最 大 似 然 方 法 进行 的 参数 最 优化 ， 能 
够 将 不 同 输入 的 相对 重要 性 从 数据 中 推断 出 来 。 这 是 高 斯 过 程 中 的 自动 相关 性 确定 (automatic 
relevance detemination) 或 者 ARD 的 一 个 例子 。 它 起 源 于 神经 网 络 的 框架 (MacKay, 1994; Neal, 
1996) 。 这 种 方法 倾向 于 选择 合适 的 输入 的 机 理 在 7.2.2 节 讨论 。 

考虑 二 维 输入 空间 z = (z1, x2)， 有 一 个 下 面 形式 的 核 函数 


2 
k(x, x') = Oo0 exp (3 pm mi(zi 一 | (6.71) 


i 二 1 


图 69 给 出 了 两 个 不 同 的 精度 参数 mi 的 设 定 下 ，y(z) 的 先 验 概率 分 布 。 我 们 看 到 ， 随 着 特定 
的 m; 的 减 小， 函数 逐渐 对 对 应 的 输入 变量 zi; 不 敏感 。 通 过 使 用 最 大 似 然 法 按照 数据 集 调整 这 些 
参数 ， 它 可 以 检测 到 对 于 预测 分 布 几乎 没有 影响 的 输入 变量 ， 因 为 对 应 的 mi 会 很 小 。 这 在 实际 
应 用 中 很 有 用 ， 因 为 它 使 得 这 些 输入 可 以 被 遗弃 。 图 6.10 使 用 一 个 具有 三 个 输入 z1, x2 和 zs 的 简 
单 人 造 数据 集 来 说 明 ARD (Nabney, 2002) 。 目 标 变 量 t 的 生成 方式 为 : 从 一 个 高 斯 分 布 中 采样 
100 个 zl ， 计 算 函 数 sin(2rzl)， 然 后 加 上 添加 上 高 斯 噪声 。z2 的 值 通过 复制 对 应 的 z1 然 后 添加 噪 
声 的 方式 获得 ，zs 的 值 从 一 个 独立 的 高 斯 分 布 中 采样 。 因 此 ，z1 很 好 地 预测 了 t+，z2 对 的 预测 
的 噪声 更 大 ，zs 与 1 之 间 上 只 有 偶然 的 相关 性 。 一 个 带 有 ARD 参 数 思 ,ma,78 的 高 斯 过 程 的 边缘 似 然 
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图 6.10: 高 斯 过 程 的 自动 相关 性 检测 的 例子 。 数 据 集 是 人 工 生 成 的 数据 集 ， 由 三 个 输入 zx1, x2 和 zx3。 曲 线 
表示 对 应 的 超 参数 的 值 与 最 优化 边缘 似 然 函 数 时 的 迷 代 次 数 的 关系 ， 红 色 表 示 m， 绿 色 表 示 m7。， 蓝 色 表 
示 ma。 细 节 在 正文 中 给 出 。 注 意 垂 直 轴 的 对 数 标 度 。 
































图 6.11: 左 图 给 出 了 在 函数 o(z) 上 定义 了 一 个 高 斯 过 程 先 验 的 样本 ， 右 图 给 出 了 使 用 logistic sigmoid 对 这 
个 样本 进行 变换 得 到 的 结果 。 


通 数 使 用 放 缩 的 共 轿 梯度 算法 进行 最 优化 。 从 图 6.10 中 ,我 们 看 到 hn 收敛 到 了 一 个 相对 较 大 的 
值 ，m?2 收 敛 到 了 一 个 小 得 多 的 值 ，m3 变 得 非常 小 ， 表 明 z3 与 预测 t 无 关 。 

ARD 框 架 很 容易 整合 到 指数 -二 次 核 (6.63) 中 ， 得 到 下 面 形式 的 核 浮 数 ， 它 对 于 一 大 类 将 高 
斯 过 程 应 用 于 回归 问题 的 实际 应 用 都 很 有 帮助 。 


D D 
1 
大 (Zn Tm) = 00 exp (3 2, Wi (Tni 一 co 十 02 十 03 » Titmi (6.72) 


其 中 DD 是 输入 空间 的 维度 。 


6.4.5 用 于 分 类 的 高 斯 过 程 


在 分 类 的 概率 方法 中 ， 我们 的 目标 是 在 给 定 一 组 训练 数据 的 情况 下 ， 对 于 一 个 新 的 输入 向 
量 , 为 目标 变量 的 后 验 概率 建 模 。 这 些 概 率 一 定位 于 区 间 (0,1) 中 ， 而 一 个 高 斯 过 程 模 型 做 出 的 
预测 位 于 整个 实数 轴 上 。 然 而 ， 我 们 可 以 很 容易 地 调整 高 斯 过 程 ， 使 其 能 够 处 理 分 类 问题 。 方 
法 为 : 使 用 一 个 恰当 的 非 线 性 激活 函数 ， 将 高 斯 过 程 的 输出 进行 变换 。 

首先 考虑 一 个 二 分 类 问题 ， 它 的 目标 变量 为 te {0, 1}。 如 果 我 们 定义 函数 a(x) 上 的 一 个 高 斯 
过 程 ， 然 后 使 用 公式 (4.59) 给 出 的 logistic sigmoid 函 数 y = o(a) 进 行 变换 ， 那 么 我 们 就 得 到 了 
函数 y(z) 上 的 一 个 非 高 斯 随机 过 程 ， 其 中 y & (0, 1)。 图 6.11 说 明了 一 维 输入 空间 的 情况 ， 其 中 目 
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标 变量 + 上 的 概率 分 布 是 伯 努 利 分 布 
po 一 co 一 ao) 一 (6.73) 


与 之 前 一 样 ， 我 们 把 训练 集 的 输入 记 作 zi1,...,XN， 对 应 的 观测 目标 变量 
为 t = (1,...,tN)*。 我 们 还 考虑 一 个 单一 的 测试 数据 点 vwN4+1， 目 标 值 为 tv41。 我 们 的 目标 
是 确定 预测 分 布 p(tw+l | t)， 其 中 我 们 没有 显 式 地 写 出 它 对 于 输入 变量 的 条 件 依 赖 。 为 了 完 
成 这 个 目标 ， 我 们 引入 向 量 an4+1 上 的 高 斯 过 程 先 验 ， 它 的 分 量 为 a(21),...,a(ZXN+41)。 这 反 过 
来 定义 了 tw+1 上 的 一 个 非 高 斯 过 程 。 通 过 以 训练 数据 tn 为 条 件 ， 我 们 得 到 了 求解 的 预测 分 
布 。aN+1 上 的 高 斯 过 程 先 验 的 形式 为 

plaN+1) = N(an+1|0,CN+1) (6.74) 
与 回归 的 情形 不 同 ， 协 方差 矩阵 不 再 包含 噪声 项 ， 因 为 我 们 假设 所 有 的 训练 数据 点 都 被 正确 标 
记 。 然 而 ， 由 于 数值 计算 的 原因 ， 更 方便 的 做 法 是 引入 一 个 由 参数 vv 控制 的 类 似 噪声 的 项 ， 它 确 
保 了 协 方差 矩阵 是 正定 的 。 因 此 协 方差 矩阵 C w+1 的 元 素 为 

C(zZn， Tm) 二 天 (Zn， Tm) 十 VOnm (6.75) 


其 中 k(xn, xm) 是 6.2 节 讨论 的 一 个 任意 的 半 正 定 核 函 数 ，rv 的 值 通常 事先 固定 。 我 们 会 假定 核 函 
数 k(z, x2 由 参数 向 量 9 控制 ， 我们 稍 后 会 讨论 如 何 从 训练 数据 中 学 习 到 9。 

对 于 二 分 类 问题 ， 预 测 p(tn+41 = 1 | tr) 就 足够 了 ， 为 p(tn+1 二 0 | ty) 的 值 等 
于 1 一 p(tN+1 二 1|tN)。 求 解 的 预测 分 布 为 


pltn+1=1|ty)= /en =1|aNr)p(aNn+ti | tn) daNw+l (6.70) 


其 中 p(tw+1l 三 1 avw+l) = al(aNw+l)。 

这 个 积分 无 法 求 出 解析 解 ， 因 此 可 以 使 用 采样 的 方法 近似 (Neal, 1997) 。 我 们 还 可 以 使 用 
另 一 种 方法 ， 这 种 方法 基于 一 个 解析 的 近似 。 在 4.5.2 节 ， 我 们 推导 了 logistic sigmoid 函 数 与 高 斯 
分 布 卷 积 的 近似 公式 (4.153) 。 我 们 可 以 使 用 这 个 结果 计算 公式 (6.76) 中 的 积分 ， 只 要 我 们 
对 后 验 概率 分 布 p(an+1 | tn) 进行 高 斯 近似 。 通 常 对 后 验 概率 进行 高 斯 近似 的 理由 是 ,根据 中 心 
极限 定理 ， 随 着 数据 点 数量 的 增加 ， 真 实 的 后 验 概率 将 会 趋向 于 一 个 高 斯 分 布 。 在 高 斯 过 程 的 
情形 中 ， 变 量 的 数量 随 着 数据 点 数量 的 增多 而 增多 ， 因 此 这 个 结果 不 能 直接 应 用 。 然 而 ， 如 果 
我 们 考虑 增加 落 在 x 空间 的 固定 区 域 中 的 数据 点 的 数量 ， 那 么 函数 a(zx) 中 对 应 的 不 确定 性 就 会 减 
小 ， 这 就 渐 近 地 趋 近 于 高 斯 分 布 (Williams and Barber 1998) 。 

我 们 考虑 三 种 不 同 的 获得 高 斯 近似 的 方法 。 一 种 方法 基于 变 分 推 听 (variational inference) 

(Gibbs and MacKay, 2000) ， 并 且 使 用 了 logistic sigmoid 函 数 的 局 部 变 分 界 (10.144) 。 这 使 
得 sigmoid 函 数 的 乘积 可 以 通过 高 斯 的 乘积 近似 ， 因 此 使 得 对 aN 的 积分 可 以 解析 地 计算 。 这 种 方 
法 也 产生 了 似 然 函数 p(tn | 0) 的 下 界 。 通 过 使 用 softmax 函 数 的 高 斯 近似 ， 高 斯 过 程 分 类 的 变 分 
法 框架 也 可 以 扩展 到 多 类 (K > 2) 问题 (Gibbs, 1997) 。 

第 二 种 方法 使 用 期 望 传播 (expectation propagation) (Opper and Winther, 2000b; Minka, 
2001b; Seeger 2003) 。 正 如 我 们 将 看 到 的 那样 ， 由 于 真实 的 后 验 概率 是 单 峰 的 ， 期 望 传播 方法 
可 以 给 出 很 好 的 结果 。 





646 拉 普 拉 斯 近似 
第 三 种 高 斯 过 程 分 类 的 方法 基于 拉 普 拉 斯 近似 ， 我 们 现在 将 详细 讨论 。 为 了 计算 预测 分 布 
(6.76) ,我 们 寻找 an+1 的 后 验 概率 分 布 的 高 斯 近似 。 使 用 贝 叶 斯 定理 ， 后 验 概率 分 布 为 


plan+i | ty) = /wavax |tw) daN 


1 

二 一 一 ~ plows an)plty | aw+lQN) daN 
D(tN) 

ee 1 
p(tn) 


到 1 We a gao 


(6.77) 
/ tl 
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其 中 我 们 用 到 了 p(tw | aw+laN) = pltn | an)。 使 用 公式 〈6.66) 和 公式 (6.67) 给 出 的 高 斯 过 
程 回归 的 结果 ， 我 们 可 以 得 到 条 件 概率 分 布 z(ww+l | aN)， 结 果 为 


plan+i| an)=N(anri |k CNan,c— ki OnEk) (6.78) 
于 是 ， 通 过 找到 后 验 概率 分 布 p(an | tw) 的 拉 普 拉 斯 近似 ， 然 后 使 用 两 个 高 斯 分 布 卷 积 的 标准 
结果 ， 我 们 就 可 以 计算 公式 (6.77) 中 的 积分 。 
先 验 概率 p(an) 由 一 个 零 均值 高 斯 过 程 给 出 ， 协 方差 算 阵 为 CN， 数据 项 (假设 数据 点 之 间 
具有 独立 性 ) 为 


N 
olan)" (1 —o(an)! ”= | e™*o(-e) (6.79) 
2 n=1 


我 们 然后 通过 对 p(aw | tw) 的 对 数 进行 泰勒 展开 ， 就 可 以 得 到 拉 普 拉 斯 近似 。 忽 略 掉 一 些 具 有 
可 加 性 的 常数 ， 这 个 概率 的 对 数 为 


V(an)= Inp(an)+Inp(ty | an) 


器 = 


plty | aN) 三 


3 
| 


1 N 1 
三 -5aNCN on = ln(27) 一 三 lIn|Cw| 十 ta 


(6.80) 
N 
— >》_In(l +e”) 
n=1 
首先 我 们 需要 找到 后 验 概率 分 布 的 众 数 ， 这 需要 我 们 计算 亚 (ww) 的 梯度 。 这 个 梯度 为 
VV(an) =ty—-oN— OWay (6.81) 


其 中 rw 是 一 个 元 素 为 c(an) 的 向 量 。 寻 找 众 数 时 ， 我 们 不 能 简单 地 令 这 个 梯度 等 于 零 ， 
为 oN 与 Qn 的 关系 是 非 线 性 的 ， 因 此 我 们 需要 使 用 基于 Newton-Raphson 方 法 的 迭代 的 方法 ， 它 
给 出 了 一 个 迭代 重 加 权 最 小 平方 〈IRLS) 算法 。 这 需要 求 出 束 (an) 的 二 阶 导数 ， 而 这 个 二 阶 导 
数 也 需要 进行 拉 普 拉 斯 近似 ， 结 果 为 


VVvY(an)= -Wx Cw (6.82) 


其 中 Ww 是 一 个 对 角 和 矩阵 ， 元 素 为 o(an)(1 一 o(an))， 并 且 我 们 使 用 了 公式 (4.88) 给 出 
的 logistic sigmoid 函 数 的 导数 的 结果 。 注 意 ， 这 些 对 角 和 矩阵 元 素 位 于 区 间 (0, 了 )， 因 此 Ww 是 
一 个 正定 和 矩阵。 由 于 Cn (以 及 它 的 道 矩 阵 ) 被 构造 为 正定 的 ， 并且 由 于 两 个 正定 矩阵 的 
和 仍然 是 正定 矩阵 ， 因 此 我 们 看 到 Hessian 和 矩阵 4 = 一 VVy(an) 是 正定 的 ， 因 此 后 验 概率 分 
布 p(aN | ty) 是 对 数 凸 函数 ， 因 此 有 一 个 唯一 的 众 数 ， 即 全 局 最 大 值 。 然 而 ， 后 验 概率 不 是 高 
斯 分 布 ， 因 为 Hessian 和 矩阵 是 av 的 函数 。 

使 用 Newton-Raphson 公 式 (4.92) ，aN 的 迭代 更 新 方程 为 


a =CN(I+WNCN) {ty—-oN+ Wwnan} (6.83) 


这 个 方程 反复 迭代 ， 直 到 收敛 于 众 数 ( 记 作 a%) 。 在 这 个 众 数位 置 ， 梯 度 V 亚 (av) 为 零 ， 
此 ax 满足 


av =CN(ty—oNn) (6.84) 
一 且 我 们 找到 了 后 验 概 率 的 众 数 aw ， 我 们 就 可 以 计算 Hessian 矩 阵 ， 结 果 为 
五 = -VVE(aw)= WNw+OCw (6.85) 
其 中 Ww 的 元 素 使 用 aN 计 算 。 这 定义 了 我 们 对 后 验 概率 分 布 p(an | tw) 的 高 斯 近似 ， 结 果 为 
q(an)= Nl(an | aN, HT) (6.80) 
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我 们 现在 可 以 将 这 个 结果 与 公式 (6.78) 结合 ， 然 后 计算 积分 (6.77) 。 因 为 这 对 应 于 线性 高 斯 
模型 ， 我 们 可 以 使 用 一 般 的 结果 (2.115) 得 到 


ElawHi tv] 一 KUtv 一 oN) (6.87) 
varlanti|ty]=c—k (WN +CN) hk (6.88) 


现在 我 们 有 一 个 p(an+1 | tn) 的 高 斯 分 布 ， 我 们 可 以 使 用 结果 (4.153) 近似 积分 (6.76) 。 
与 45 节 的 贝 叶 斯 logistic 回 归 模 型 相同 ， 如 果 我 们 只 对 对 应 于 p(tw+1 | ty) = 0.5 的 决策 边界 感 兴 
趣 ， 那 么 我 们 只 需 考 虑 均值 ， 可 以 忽略 方差 的 效果 。 

我 们 还 需要 确定 协 方差 浮 数 的 参数 90。 一 种 方法 是 最 大 化 似 然 函数 p(t | 9)， 此 时 我 们 需要 
对 数 似 然 函 数 和 它 的 梯度 的 表达 式 。 如 果 必 要 的 话 ， 还 可 以 加 上 正则 化 项 ， 产 生 一 个 正则 化 的 
最 大 似 然 解 。 最 大 似 然 通 数 的 定义 为 


D(tN | 0) e [Es | QN)D(QN | 0) da N (6.89) 


这 个 积分 没有 解析 解 ， 所 以 我 们 需要 再 次 使 用 拉 普 拉 斯 近似 。 使 用 公式 (4.135) 的 结果 ,我们 
得 到 了 下 面 的 对 数 似 然 通 数 的 近似 


1 N 
Inptw |0) = V(aN)— 35In|WN+ CT 十 可 In(27) (6.90) 


其 中 亚 (aw) = lnp(aw | 9) 二 lnp(tn | avw)。 我 们 还 需要 计算 Inp(tw | 9) 关 于 参数 向 量 9 梯 度 。 注 
意 ，09 的 改变 会 造成 a% 的 改变 ， 产 生 梯 度 中 的 附加 项 。 因 此 ， 当 我 们 对 (6.90) 关于 9 求 积分 
时 ， 我 们 得 到 了 两 个 项 的 集合 ， 第 一 个 集合 产生 于 协 方差 矩阵 CNw 对 6 的 依赖 关系 ， 第 二 个 集合 
产生 于 oa 对 6 的 依赖 关系 。 

显 式 地 依赖 于 9 的 项 可 以 使 用 公式 (6.80) 以 及 公式 〈C.21) 和 公式 (C.22) 给 出 的 结果 得 
到 ， 结 果 为 

















DOlnptw|0) 1 rm IOCN 1 ， 
BO DN ON gp RN 





3 se (6.91) 
= 证 N 
dt (十 CNITYN) 
为 了 计算 由 于 axw 对 6 的 依赖 产生 的 项 ， 我 们 注意 到 我 们 已 经 构造 了 拉 普 拉 斯 近似 ， 从 而 
在 av = a 处 ,， 亚 (av) 的 均值 为 零 ， 从 而 亚 (aX ) 对 于 梯度 没有 贡献 。 剩 下 的 有 贡献 的 项 关于 6 的 


分 量 0; 的 导数 为 





1 3 Oln|WN + CN!| Oa* 
少 三 了 Dax 00; 
人 (6.92) 


N 

1 Oe 
= -3 [T+CNWN) Cy] ol — 0%)(1 — 20%) 3 

n=1 





Nn 
nn nN 


50) 


其 中 改 = o(o%)， 并且 我 们 又 一 次 使 用 了 公式 (C.22) 给 出 的 结果 以 及 WN 的 定义 。 我 们 可 以 
将 公式 (6.84) 给 出 的 关系 关于 0; 求 积分 ， 得 到 a 关于 0; 的 导数 ， 即 








Oa” OCN Oa™ 
一 四 0.93 
B30; 60; (ty—-oN)—-CNWN 0, (6.93) 
整理 ， 可 得 
Oa* _1 DC N 
ns CN 6.94 
50- = (T+ WNCN) ! -go (tw ~ ON) (Rd 


结合 公式 (6.91) 、 (6.92) 和 “6.94) ,我 们 可 以 计算 对 数 似 然 函 数 的 梯度 ， 然 后 使 用 标准 
非 线 性 优化 算法 来 确定 9 的 值 。 

我 们 可 以 使 用 人 工 生 成 的 两 类 数据 来 说 明 拉 普 拉 斯 近似 对 于 高 斯 过 程 的 应 用 ， 如 图 6.12 
所 示 。 很 容易 将 拉 普 拉 斯 近似 推广 到 涉及 K > 2 个 类 别 的 使 用 softmax 激 活 函 数 的 高 斯 过 程 
(Williams and Barber, 1998) 。 
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图 6.12: 使 用 高 斯 过 程 进行 分 类 的 说 明 。 左 图 给 出 了 数据 点 ， 以 及 来 自 真实 概率 分 布 的 最 优 决策 边界 〈 绿 
色 ) ， 还 有 来 自 高 斯 过 程 分 类 器 的 决策 边界 〈 黑 色 ) 。 右 图 给 出 了 蓝 色 类 别 和 红色 类 别 的 预测 后 验 概率 


6.4.7 与 神经 网 络 的 联系 


我 们 已 经 看 到 ， 神 经 网 络 可 以 表示 的 函数 的 范围 由 隐 含 单元 的 数量 M 控 制 ， 并 且 对 于 足够 
大 的 M， 一 个 两 层 神经 网 络 可 以 以 任意 精度 近似 任意 给 定 的 函数 。 在 最 大 似 然 的 框架 中 ， 隐 含 
单元 的 数量 需要 有 一 定 的 限制 (根据 训练 集 的 规模 确定 限制 的 程度 ) ， 来 避免 过 拟 合 现象 。 然 
而 ， 从 贝 叶 斯 的 角度 看 ， 根 据 训 练 集 的 规模 限制 参数 的 数量 几乎 毫 无 意义 。 

在 贝 叶 斯 神经 网 络 中 ， 参 数 向 量 妈 上 的 先 验 分 布 以 及 网 络 函 数 /z,w) 产 生 函 数 y(z) 上 的 
先 验 概率 分 布 ， 其 中 y 是 网 络 输出 向 量 。Neal (1996) 已 经 证 明 ， 在 极限 M 一 co 的 情况 下 ， 对 
于 的 一 大 类 先 验 分 布 ， 神 经 网 络 产生 的 函数 的 分 布 将 会 趋 于 高 斯 过 程 。 然 而 ， 应 该 注意 ， 在 
这 种 极限 情况 下 ， 神 经 网 络 的 输出 变量 会 变 为 相互 独立 。 神 经 网 络 的 优势 之 一 是 输出 之 间 共 享 
隐 伟 单元， 因此 它们 可 以 互相 “ 借 统计 优势 "， 即 与 每 个 隐 舍 结 点 关联 的 权 值 被 所 有 的 输出 变量 
影响 ， 而 不 是 只 被 它们 中 的 某 一 个 影响 。 这 个 性 质 在 极限 状态 下 的 高 斯 过 程 中 丢失 了 。 

我 们 已 经 看 到 ， 高 斯 过 程 由 它 的 协 方差 〈 核 ) 函数 确定 。Williams (1998) 给 出 了 在 两 种 具 
体 的 隐 含 单元 激活 函数 (probit 和 高 斯 ) 下 ， 协 方差 的 显 式 形式 。 这 些 核 函 数 k(x, zz) 是 非 静 止 
的 ， 即 它们 不 能 够 表示 为 差 x 一 2 的 函数 ， 这 是 因为 以 零 为 中 心 的 高 斯 权 值 先 验 破坏 了 权 空 间 
的 平移 不 变性 。 

通过 直接 对 协 方差 函数 计算 ， 我 们 隐 式 地 在 权 值 的 分 布 上 进行 了 积分 。 如 果 权 值 先 验 由 超 参 
数控 制 ， 那 么 它们 的 值 会 确定 函数 的 分 布 的 长 度 标 度 ， 这 可 以 通过 研究 图 5.11 给 出 的 有 限 数量 单 
Re 








6.5 ”练习 


(6.1) CGC%*) 考虑 6.1 节 给 出 的 最 小 平方 线性 回归 问题 的 对 偶 形 式 。 证 明 ， 向 量 a 的 元 素 on 的 
解 可 以 表示 为 向 量 $(zxn) 的 元 素 的 线性 组 合 。 将 这 些 系数 记 作 向 量 w， 证 明 对 偶 形式 的 对 侦 形 式 
是 用 参数 向 量 w 表 示 的 原始 表示 。 

(62) (*) 本 练习 中 ,我们 研究 感知 器 学 习 算法 的 对 偶 形式 。 使 用 感知 器 学 习 规则 
(3?) ， 证 明 学 习 的 权 向 量 刀 可 以 表示 为 向 量 妃 %(zna) 的 线性 组 合 ， 其 中 如 < {一 1,1}。 将 这 个 线 
性 组 合 的 系数 记 作 an ， 推 导 感 知 器 学 习 算 法 的 公式 ， 以 及 感知 器 的 预测 分 布 ， 用 an 表示 。 证 
明 ， 特 征 向 量 %(z) 值 出 现在 核 函 数 F(z,z') = 风 (z) 7 4(z) 中 。 

(6.3) (*) 最 近邻 分 类 器 〈2.5.2 书 ) 将 新 的 输入 向 量 z 分 配 到 训练 集 里 距离 最 近 的 输入 向 
量 zx 的 类 别 ， 其 中 在 最 简单 的 情形 中 ， 距 离 被 定义 为 欧 几 里 得 距离 |z 一 zn||。 通 过 将 这 个 规则 
表示 为 标量 积 的 形式 ， 然 后 使 用 核 蔡 换 ， 推 导出 对 于 一 般 的 非 线性 核 的 最 近邻 分 类 器 的 公式 。 

(6.4) (*) 在 附录 C 中 ， 我 们 给 出 了 一 个 具有 正 的 元 素 但 是 负 的 特征 值 从 而 非 正 定 的 矩阵 
0 
Jo 
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《65) (5) 验证 构造 合法 核 的 结果 (6.13) 和 (6.14) 。 

(6.6) (*) 验证 构造 合法 核 的 结果 (6.15) 和 “(6.16) 。 

《67) (45) 验证 构造 合法 核 的 结果 (6.17) 和 (6.18) 。 

《6.8) (*) 验证 构造 合法 核 的 结果 (6.19) 和 “(6.20) 。 

《6.9) (*) 验证 构造 合法 核 的 结果 (6.21) 和 (6.22) 。 

(6.10) 《5 证 明 ， 学 习 函 数 帮 z) 的 一 个 比较 好 的 核 的 选择 是 Etz,z) = f(z)f(x )， 证 明 
方法 为 : 证 明 一 个 基于 这 个 核 的 线性 学 习 机 器 总 会 找到 一 个 正比 于 f(z) 的 解 。 

(6.11) (*) 通过 使 用 展开 式 (6.25) ， 然 后 将 中 间 的 因子 展开 为 震级 数 ， 证 明 高 斯 核 
(6.23) 可 以 表示 为 无 限 维特 征 空间 中 的 内 积 。 

(6.12) (**) 考虑 给 定 一 个 固定 集合 D 的 情况 下 ， 所 有 可 能 子 集 4 组 成 的 空间 。 证 明 ， 核 
函数 (6.27) 对 应 于 由 映射 %(4) 定 义 的 维度 为 212 的 特征 空间 中 的 内 积 ， 其 中 ，4 是 万 的 一 个 子 
集 ， 元素 pu(4) 的 下 标 为 子 集 VU， 定义 为 


1， 如 果 U S 4 
0， ”其 他 情况 


这 里 V S A 表示 U 是 4 的 一 个 子 集 ， 或 者 等 于 A。 

(6.13) ” (*) 证 明 ， 对 于 公式 (6.33) 给 出 的 Fisher 核 ， 如 果 我 们 对 参数 向 量 进行 一 个 非 线 
性 变换 6 一 岁 (9)， 那 么 这 个 核 保持 不 变 ， 其 中 国 数 罗 (:) 是 可 逆 的 、 可 微 的 。 

(614) 09 对 于 高 斯 分 布 ptz | 4) =N(z | AS)， 其 中 均值 为 4， 协 方差 固定 为 9， 写 出 
公式 (6.33) 给 出 的 Fisher 核 的 形式 。 

(6.15) (*) 通过 考察 一 个 2 x 2 的 Gram 矩阵 的 行列 式 ， 证 明正 定 核 函 数 克 z,Z) 满 
是 Cauchy-Schwartz 不 等 式 


pu(A) = | (6.95) 


k(x1, x2) A k(z1, T1)k (x2, 72) (0.90) 


(6.16) (*) 考虑 一 个 参数 化 模型 ， 它 由 参数 向 量 w、 输 入 值 z1, ,ZN 和 一 个 非 线性 特征 
映射 p(x) 控 制 。 假 设 误差 函数 对 的 浮 数 依赖 关系 的 形式 为 


J(w) = flwT pz1), a ,070(zN)) 十 g(ao7ao) (6.97) 
其 中 g(-) 是 一 个 单调 递增 函数 。 通 过 将 w 写 成 


N 
4- 宇 >， ang(zZn) 十 也 (6.98) 


n=1 


站 中 wi ei = 0 对 于 所 有 nn 都 成 立 ， 证 明 最 小 化 7(w) 的 ww 的 值 的 形式 为 基 函 数 p(zxn) 的 线性 组 
合 ， 其 中 n = 1,...,N。 

(6.17) ”(**) 考虑 带 有 了 噪声 的 输入 数据 的 平方 和 误差 函数 (6.39) ， 其 中 v(&) 是 噪声 的 分 
布 。 使 用 变 分 法 ， 关 于 函数 y(z) 最 小 化 这 个 误差 函数 ， 从 而 证 明 最 优 解 可 以 通过 形 如 (6.40) 的 
展开 式 给 出 ， 其 中 基 函 数 由 公式 (6.41) 给 出 。 

(6.18) (*) 考虑 一 个 Nadaraya-Watson 模 型 ， 带 有 一 个 输入 变量 z 和 一 个 目标 变量 :， 模 型 
具有 高 斯 分 量 ,， 分量 的 协 方差 是 各 向 同性 的 ， 从 而 协 方差 矩阵 为 0*?T， 其 中 I 是 单位 矩阵 。 使 用 
核 函 数 k(z, zn)， 写 出 条 件 概 率 密度 p(t | x)、 条 件 均 值 Elt | zj 和 方差 var[ | x] 的 表达 式 。 

(6.19) ”(**) 通过 考察 输入 变量 和 目标 变量 被 噪声 污染 过 的 回归 问题 ， 我 们 可 以 得 到 核 
回归 的 另 一 个 观点 。 假 设 每 个 目标 值 包 与 之 前 一 样 ， 通 过 计算 函数 y(zn) 在 点 加 处 的 函数 值 
然后 添加 噪声 的 方式 得 到 。 然 而 ，zn* 的 值 不 是 直接 观测 到 的 ， 而 是 一 个 被 噪声 污染 的 版 
本 zn = zu 十 如， 其 中 ， 随 机 变量 上 由 某 个 概率 分 布 "(6) 控 制 。 考 虑 一 组 观测 值 {zn, 如 }， 其 
中 n= 1,...,N， 以 及 对 应 的 平方 和 误差 函数 ， 通 过 对 输入 噪声 取 平 均 的 方式 定义 ， 即 


























1 N 
Se > [wl 8) (em) de (6.99) 
v4 


使 用 变 分 法 (附录 D) ， 关 于 函数 y(z) 最 小 化 ,证 明 y(z) 的 最 优 解 由 Nadaraya-Watson 核 回归 的 
解 给 出 ， 形 式 为 〈6.45) ， 核 函数 为 (6.46) 。 
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《0.20) ”CG*) 验证 结果 (6.66) 和 (6.67) 。 

(621) (**) 考虑 一 个 高 斯 过 程 回 归 模 型 ， 其 中 核 函数 根据 一 组 固定 的 非 线性 基 沙 数 集合 
定义 。 证 明 ， 预 测 分 布 与 3.3.2 节 讨论 贝 叶 斯 线性 回归 模型 时 得 到 的 结果 〈3.58) 完全 相同 。 为 了 
证 明 这 一 点 ， 注 意 两 个 模型 的 预测 分 布 都 是 高 斯 分 布 ， 因 此 只 需 证 明 条 件 均 值 和 方差 相同 即 
可 。 对 于 均值 ， 使 用 矩阵 恒等式 (C.6) ， 对 于 方差 ， 使 用 矩阵 恒等式 〈C.7) 。 

(622) (**) 考虑 一 个 回归 问题 ,具有 NN 个 训练 集 输入 向 量 Z1,.….,zXN， 以 及 L 个 测试 
集 输入 向 量 ZN41,.….,XN+ri， 并 且 假 设 我 们 在 函数 t(z) 上 定义 了 一 个 高 斯 过 程 先 验 。 给 
定 t(21),.….,t(ZN)， 推 导 t(ZN+41),…,t(zN+L) 上 的 联合 预测 分 布 的 表达 式 。 对 于 一 个 测试 观 
测 t; ， 其 中 N 十 1 < 7 < N ++ 上， 证 明 这 个 概率 分 布 的 边缘 概率 分 布 由 一 般 的 高 斯 过 程 回归 的 结 
果 (6.66) 和 (6.67) 给 出 。 

(6.23) (**) 考虑 一 个 高 斯 过 程 回 归 模 型 ， 其 中 目标 变量 t 的 维度 为 D。 给 定 输入 变 
量 zl, ,ZN 以 及 对 应 的 目标 观测 厂 ,……,tx 组 成 的 训练 集 ， 对 于 一 个 测试 输入 向 量 zw+l， 写 
出 tw+i 的 条 件 概率 分 布 。 

(6.24) (*) 证 明 ， 元素 满足 0 < Wi; < 1 的 对 角 和 矩阵 W 是 正定 的 。 证 明 ， 两 个 正定 矩阵 的 
和 本 身 为 正定 的 。 

(6.25) (*) 使 用 Newton-Raphson 公 式 (4.62) 公式 ， 推 导 寻 找 高 斯 过 程 分 类 模型 后 验 概 率 
分 布 的 峰值 a 的 迭代 更 新 公式 〈6.83) 。 

(6.26) (*) 使 用 公式 (2.115) 的 结果 ,推导 高 斯 过 程 分 类 模型 后 验 概 率 分 布 的 均值 和 方 
差 的 表达 式 (6.87) 和 “(6.88) 。 

(6.27) (x*) 推导 高 斯 过 程 分 类 的 拉 普 拉 斯 近似 框架 的 对 数 似 然 函数 的 结果 (6.90) 。 类 
似 地 ， 推 导 对 数 似 然 函 数 梯 度 中 的 项 的 结果 (6.91) 、 (6.92) 和 (6.94) 。 
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7 稀 瑰 核 机 


在 前 一 章 中 ， 我们 研究 了 许多 基于 非 线 性 核 的 学 习 算 法 。 这 种 算法 的 一 个 最 大 的 局 限 性 是 核 
前 数 k(zn, xm) 必须 对 所 有 可 能 的 训练 点 对 zn 和 zm 进行 求 值 ， 这 在 训练 阶段 的 计算 上 是 不 可 行 
的 ， 并 且 会 使 得 对 新 的 数据 点 进行 预测 时 也 会 花费 过 多 的 时 间 。 本 章 中 ， 我 们 会 看 到 具有 稀 芷 
(sparse) 解 的 基于 核 的 算法 ， 从 而 对 新 数据 的 预测 只 依赖 于 在 训练 数据 点 的 一 个 子 集 上 计算 的 
核 函 数 。 

首先 ， 我 们 详细 讨论 支持 向 量 机 (support vector machine) (SVM) ， 它 在 一 些 年 之 
前 变 得 逐渐 流行 ， 可 以 用 来 解决 分 类 问题 、 回 归 问 题 以 及 异常 点 检测 问题 。 支 持 
向 量 机 的 一 个 重要 性 质 是 模型 参数 的 确定 对 应 于 一 个 凸 最 优化 问题 ， 因 此 许多 局 
部 解 也 是 全 局 最 优 解 。 由 于 对 支持 向 量 机 的 讨论 需要 频繁 用 到 拉 格 朗 日 乘 数 法 ， 
因此 我 们 建议 读者 复习 附录 E 中 提 到 的 关键 的 概念 。 额 外 的 关于 支持 向 量 机 的 介 
绍 ， 可 以 参考 Vapnik (1995) 、Burges (1998) 、Cristianini and Shawe-Taylor (2000) 、Miiller 
etal. (2001) 、Sch6lkopf and Smola (2002) 和 Herbrich (2002) 。 

SVM 是 一 个 决策 机 器 ， 因 此 不 提供 后 验 概率 。 我 们 已 经 在 1.5.4 节 讨论 过 了 确定 概率 的 好 处 。 
另 一 种 稀疏 核 方 法 ， 被 称 为 相关 癌 量 机 (relevance vector machine) (RVM) ， 基 于 贝 叶 斯 方 
法 ， 提 供 了 后 验 概率 的 输出 ， 并 且 通 常 能 产生 比 SVM 更 稀疏 的 解 。 


7.1 最 大 边缘 分 类 器 


为 了 开始 我 们 关于 支持 向 量 机 的 讨论 ， 我 们 回 到 使 用 线性 模型 的 二 分 类 问题 。 线 性 模型 的 形 
式 为 





y(2) = $2) +b (7.1) 


其 中 %z) 表 示 一 个 固定 的 特征 空间 变换 ， 并 且 我 们 显 式 地 写 出 了 偏 置 参数 bp。 注意 ， 我 们 会 
简要 介绍 使 用 核 通 数 表达 的 对 偶 形 式 ， 这 避免 了 显 式 地 在 特征 空间 中 进行 计算 。 训 练 数据 
集 由 和 N 个 输入 向 量 z1,.…. ,zn 组成， 对 应 的 目标 值 为 1,.….,tny， 其 中 th E {一 1,1}， 新 的 数据 
点 2 根据 y(z) 的 符号 进行 分 类 。 

现 阶段 ， 我 们 假设 训练 数据 集 在 特征 空间 中 是 线性 可 分 的 ， 即 根据 定义 ， 存 在 至 少 一 个 
参数 w 和 5 的 选择 方式 ， 使 得 对 于 tn = 十 1 的 点 ， 通 数 (7.1) 都 满足 yzn) > 0， 对 于 = 一 1 的 
点 ， 都 有 y(zn) < 0， 从 而 对 于 所 有 训练 数据 点 ， 都 有 如 y(zn) > 0。 

当然 ， 存 在 许多 能 够 把 类 别 精 确 分 开 的 解 。 在 41.7 节 ， 我 们 介绍 了 感知 器 算法 ， 它 能 够 保证 
在 有 限 步 又 之 内 找到 一 个 解 。 然 而 ， 它 找到 的 这 个 解 依赖 于 凤 和 ?2 的 〈 任 意 的 ) 初始 值 选择 ， 还 
依赖 于 数据 点 出 现 的 顺序 。 如 果 有 多 个 能 够 精确 分 类 训练 数据 点 的 解 ， 那 么 我 们 应 该 尝试 寻找 
泛 化 错误 最 小 的 那个 解 。 支 持 向 量 机 解决 这 个 问题 的 方法 是 : 引入 边缘 (margin) 的 概念 ， 这 
个 概念 被 定义 为 决策 边界 与 任意 样本 之 间 的 最 小 距离 ， 如 图 7.1 所 示 。 











margin 


图 7.1: 边缘 被 定义 为 决策 边界 与 最 近 的 数据 点 之 间 的 垂直 距离 ， 如 左 图 所 示 。 最 大 化 边缘 会 生成 对 决策 
边界 的 一 个 特定 的 选择 ， 如 右 图 所 示 。 这 个 决策 边界 的 位 置 由 数据 点 的 一 个 子 集 确 定 ， 被 称 为 支持 向 
量 ， 用 圆圈 表示 。 
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在 支持 向 量 机 中 ， 决 策 边 界 被 选 为 使 边缘 最 大 化 的 那个 决策 边界 。 采 用 最 大 边缘 解 的 动机 
可 以 通过 计算 学 习 理 论 (computational learning theory) 或 者 统计 学 习 理 论 (statistical learning 
theory) 进行 理解 。 然 而 ，Tong and Koller (2000) 给 出 了 使 用 最 大 边缘 解 的 一 个 简单 的 原因 。 
他 们 考察 了 一 个 基于 生成 式 方法 和 判别 式 方法 组 成 的 金字 塔 的 分 类 框架 ， 并 且 首 先 使 用 带 有 共 

同 参数 c2 的 高 斯 核 的 Parzen 密 度 估计 对 每 个 类 别 的 输入 向 量 z 的 分 布 进行 建 模 。 伴 随 着 类 别 先 
验 ， 这 个 分 布 定 义 了 一 个 最 优 的 分 类 错误 率 决 策 边 界 。 然 而 ， 他 们 没有 使 用 这 个 最 优 的 决策 边 
界 ， 而 是 通过 最 小 化 学 习 到 的 模型 的 错误 率 来 寻找 最 优 的 超 平 面 。 在 极限 c” 一 0 的 情况 下 ， 可 
以 证 明 最 优 超 平面 是 有 着 最 大 边缘 的 超 平 面 。 这 个 结果 缘 后 的 直观 含义 是 ， 随 着 o? 的 减 小 ， 距 
离 超 平面 较 近 的 点 对 超 平面 的 控制 能 力 逐 渐 大 于 距离 较 远 的 点 。 在 极限 情况 下 ， 超 平面 会 变 得 
与 非 支 持 向 量 的 数据 点 无 关 。 

我 们 会 在 图 10.13 中 看 到 ， 对 于 一 个 简单 的 线性 可 分 数据 集 ， 在 贝 叶 斯 方法 中 ， 关 于 参数 的 
先 验 概率 分 布 进行 积分 或 求 和 ， Ti 这 个 决策 边界 位 于 分 开 数 据点 的 区 域 
中 间 。 最 大 边缘 解 有 着 类 似 的 行为 。 

回忆 一 下 ， 根 据 图 41， 点 x 距离 由 y(x) = 0 定义 的 超 平面 的 垂直 距离 为 名 由， 其 中 yz) 的 函 
数 形式 由 公式 (7.1) 给 出 。 此 外 ， 我 们 感 兴趣 的 是 那些 能 够 正确 分 类 所 有 数据 点 的 解 ， 即 对 于 
所 有 的 mn 都 有 如 y(zn) > 0， 因 此 点 zn 距离 决策 面 的 距离 为 

tny(zn) _ tn(wW (Tn) + 


一 7.2 
[ol [ol ee. 


边缘 由 数据 集 里 垂直 距离 最 近 的 点 zw 给 出 ， 我 们 希望 最 优化 参数 ww 和 5b， 使 得 这 个 距离 能 够 最 大 
化 。 因 此 ， 最 大 边缘 解 可 以 通过 下 式 得 到 。 











ar Re min 7 TX 和 
ne {Fj (oon) + ) 





和 人 了 [了 区 人 人 之 外 ， 国 为 5 天。 过 个 最 人 化 回归 
复杂 ， 因 此 我 们 要 把 它 转 化 为 一 个 更 容易 求解 的 等 价 问题 。 为 了 完成 这 件 事 ， 我 们 注意 到 如 果 
我 们 进行 重新 标 度 ww 忆 Kw 以 及 b 一 Ab， 那么 任意 点 ,距离 决策 面 的 距离 i 不 会 发 生 改 
变 。 我 们 可 以 使 用 这 个 性 质 ， 对 于 距离 决策 面 最 近 的 点 ， 令 





如 (wb(zn) 十 人 一 1 (7.4) 
在 这 种 情况 下 ， 所 有 的 数据 点 会 满足 限制 
tb(zn) 十 让 二 1 n=1l,...,N (7.5) 


这 被 称 为 决策 超 平 面 的 标准 表示 。 对 于 使 上 式 取得 等 号 的 数据 点 ， 我 们 说 限制 被 激活 
(active) ， 对 于 其 他 的 数据 点 ， 我们 说 限制 未 激活 (inactive) 。 根 据 定义 ， 总 会 存在 至 少 一 个 
激活 限制 ， 因 为 总 会 有 一 个 距离 最 近 的 点 ， 并 且 一 旦 边缘 被 最 大 化 ， 会 有 至 少 两 个 激活 的 限 
制 。 这 样 ， 最 优化 问题 就 简化 为 了 最 大 化 lw -: ， 这 等 价 于 最 小 化 lw 性 ， 因 此 我 们 要 在 限制 条 
件 (7.5) 下 ， 求解 最 优化 问题 


1 
arg min 二 la (7.0) 
w,b 2 


公式 (7.6) 的 因子 3 的 引入 是 为 了 后 续 计算 方便 。 这 是 二 次 规划 (quadratic programming) 问题 
的 一 个 例子 ， 其 中 我 们 试图 在 一 组 线性 不 等 式 的 限制 条 件 下 最 小 化 二 次 函数 。 似 乎 偏 置 5 从 最 优 
化 问题 中 消失 了 。 然 而 ， 它 可 以 通过 限制 条 件 隐 式 地 确定 ， 因 为 这 些 限 制 条 件 要 求 |w|| 的 改变 
需要 通过 6b 的 改变 进行 补偿 。 我 们 稍 后 会 看 到 它 是 如 何 工 作 的 。 
为 了 解决 这 个 限制 的 最 优化 问题 ， 我 们 引入 拉 格 朗 日 乘 数 on > 0。 公 式 (7.5) 中 的 每 个 限制 
条 件 都 对 应 着 一 个 乘 数 w。 从 而 可 得 下 面 的 拉 格 朗 日 函数 


L(w,b, a) = lwl? — Dao (w’ p(xn) +0) — 1)} (7.7) 
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其 中 a = (a1,.….,an)?。 注 意 拉 格 朗 日 乘 数 项 前 面 的 负 号 ， 因 为 我 们 要 关于 w 和 0b 最 小 化 ， 关 
于 a 最 大 化 。 令 L(w,b, a) 关 于 ww 和 5b 的 导数 等 于 零 ， 我 们 得 到 了 下 面 两 个 条 件 


N 
w= 》 antng(zn) (7.8) 
n=1 
N 
0= > Qntn (7.9) 
n=1 


使 用 这 两 个 条 件 从 L(w,5,a) 中 消去 w 和 5， 就 得 到 了 最 大 化 边缘 问题 的 对 侦 表 示 (dual 
representation) ， 其 中 我 们 要 关于 a 最 大 化 


N 1 NN 
La) = >》 on 一 5 本 (7.10) 
n=1 n=1 m=1 
限制 条 件 为 
a nt | ed ef (7.11) 
N 
Si (7.12) 
n=1 


这 里 ， 核 函数 被 定义 为 k(x, 2 ) = 9(zX)79(z)。 与 之 前 一 样 ， 这 是 一 个 二 次 规划 问题 ， 其 中 我 
ee ee 
J 方法。 

M 个 变量 的 二 次 规划 问题 的 求解 ， 通 常 的 时 间 复 杂 度 为 OD(M3)。 通 过 将 原始 问题 转化 为 对 
偶 问 题 ， 我 们 将 涉及 到 M 个 变量 的 最 小 化 公式 (7.6) 的 问题 转化 为 了 涉及 到 六 个 变量 的 对 偶 问 
题 (7.10) 。 对 于 一 组 固定 的 基 范 数 ， 其 中 基 函 数 的 数量 M 小 于 数据 点 的 数量 N， 转 化 为 对 偶 问 
题 似乎 没有 什么 好 处 。 但 是 ， 对 偶 问 题 使 得 模型 能 够 用 核 函 数 重新 表示 ， 因 此 最 大 边缘 分 类 器 
可 以 被 高 效 地 应 用 于 维 数 超过 数据 点 个 数 的 特征 空间 ， 包 括 无 穷 维 特征 空间 。 核 公式 也 让 核 函 
数 k(zx, 2) 正定 这 一 限制 条 件 存 在 的 原因 变 得 更 显然 ， 因 为 这 确保 了 拉 格 朗 日 函数 L(a) 有 上 界 ， 
从 而 使 得 最 优化 问题 有 良好 的 定义 。 

为 了 使 用 训练 过 的 模型 分 类 新 的 数据 点 ， 我 们 计算 公式 (7.1) 定义 的 y(z) 的 符号 。 通 过 使 
用 公式 (7.8) 消去 w，y(x) 可 以 根据 参数 {an} 和 核 通 数 表示 ， 即 








N 
gy(z) = 》 an 如 有 (zzn) 十 了 (7.13) 
n=1 


在 附录 E 中 ， 我 们 说 明了 这 种 形式 的 限制 的 最 优化 问题 满足 Karush-Kuhn-Tucker (KKT) 条 
件 。 在 这 个 问题 中 ， 下 面 三 个 性 质 要 成 立 。 


an 之 0 (7.14) 

tny(zn)—1>0 (7.15) 

an{tny(zn)—1}=0 (7.10) 

因此 对 于 每 个 数据 点 ， 要 么 an = 0， 要 么 tny(zn) = 1。 任 何 使 得 on = 0 的 数据 点 都 不 会 出 现在 


公式 (7.13) 的 求 和 式 中 ， 因 此 对 新 数据 点 的 预测 没有 作用 。 剩 下 的 数据 点 被 称 为 支持 向 量 
(support vector) 。 由 于 这 些 支持 向 量 满足 如 y(zn) = 1， 因 此 它们 对 应 于 特征 空间 中 位 于 最 大 
边缘 超 平面 内 的 点 ， 如 图 7.1 所 示 。 这 个 性 质 是 支持 向 量 机 在 实际 应 用 中 的 核心 。 一 旦 模型 被 训 
练 完 毕 ， 相 当 多 的 数据 点 都 可 以 被 丢弃 ， 只 有 支持 向 量 被 保留 。 

解决 了 二 次 规划 问题 ， 找 到 了 wa 的 值 之 后 ， 注 意 到 支持 向 量 zn 满 足 如 y(zn) = 1， 我 们 就 可 以 
确定 阔 值 参数 b 的 值 。 使 用 公式 (7.13) ， 可 得 


ty, 3 amtmk (xn, Tm) + , 一 1 (7.17) 


mES 
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图 7.2: 二 维 空间 中 来 自 两 个 类 别 的 人 工 生成 数据 的 例子 。 图 中 画 出 了 具有 高 斯 核 函数 的 支持 向 量 机 的 得 
到 的 常数 V(z) 的 轮廓 线 。 同 时 给 出 的 时 决策 边界 、 边 缘 边 界 以 及 支持 向 量 。 








其 中 5 表示 支持 向 量 的 下 标 集合 。 虽 然 我 们 可 以 使 用 任意 选择 的 支持 向 量 zn 解 这 个 关于 5 的 
方程 ， 但 是 我 们 可 以 通过 下 面 的 方式 得 到 一 个 在 数值 计算 上 更 加 稳定 的 解 。 首 先 乘 以 tn， 使 
用 刀 = 1 的 性 质 ， 然 后 对 于 所 有 的 支持 向 量 ， 整 理 方程 ， 解 出 5»， 可 得 


b= 去 > (: 一 > amtmk (wn, = (7.18) 


mEG mES 


其 中 Ns 是 支持 向 量 的 总 数 。 
对 于 接 下 来 的 模型 比较 ， 我 们 可 以 将 最 大 边缘 分 类 器 用 带 有 简单 二 次 正则 化 项 的 最 小 化 误差 
函数 表示 ， 形 式 为 


N 
>》 Boly(zn)tn — 1) + Mwll? (7.19) 
n=1 


其 中 Eoo(z) 是 一 个 通 数 ， 当 z > 0 时 ， 阴 数值 为 零 ， 其 他 情况 下 通 数 值 为 oO。 这 就 确保 了 限制 条 
件 (7.5) 成 立 。 注 意 ， 只 要 正则 化 参数 满足 > 0， 那 么 它 的 精确 值 就 没有 作用 。 

图 7.2 给 出 了 一 个 分 类 问题 的 例子 。 分 类 用 的 模型 使 用 支持 向 量 机 训练 ， 训 练 数据 是 一 个 简 
单 的 人 工 生 成 的 数据 集 ， 核 函数 是 公式 (6.23) 给 出 的 高 斯 核 。 虽 然 数 据点 在 二 维 空间 中 显然 不 
是 线性 可 分 的 ， 但 是 它 在 隐 式 地 由 非 线性 核 函数 定义 的 非 线 性 特征 空间 中 是 线性 可 分 的 。 因 
此 ， 训 练 数据 点 在 原始 数据 空间 中 被 完美 地 分 开 了 。 

这 个 例子 也 从 几何 角度 说 明了 SVM 中 稀 葡 性 的 来 源 。 最 大 边缘 超 平面 由 支持 向 量 的 位 置 定 
义 ， 其 他 数据 点 可 以 自由 移动 〈 只 要 仍然 在 边缘 区 域 之 外 ) 而 不 改变 决策 边界 ， 因 此 解 与 这 些 
数据 点 无 关 。 


7.1.1 重 堆 类 分 布 


目前 为 止 ， 我 们 假设 训练 数据 点 在 特征 空间 %(z) 中 是 线性 可 分 的 。 解 得 的 支持 向 量 机 在 原 
始 输入 空间 z 中 会 对 训练 数据 进行 精确 地 划分 ， 虽 然 对 应 的 决策 边界 是 非 线 性 的 。 然 而 ， 在 实 
际 中 ， 类 条 件 分 布 可 能 重 琶 ， 这 种 情况 下 对 训练 数据 的 精确 划分 会 导致 较 差 的 泛 化 能 

因此 我 们 需要 一 种 方式 修改 支持 向 量 机 ， 人 允许 一 些 训练 数据 点 被 误 分 类 。 根 据 公式 
(7.19) ， 我 们 看 到 在 可 以 分 开 的 类 别 的 情况 下 ， 我 们 隐 式 地 使 用 了 一 个 误差 函数 。 当 数据 点 被 
错误 分 类 时 ， 这 个 误差 函数 等 于 无 穷 大 ， 而 当 数据 点 被 正确 分 类 时 ， 这 个 误差 函数 等 于 零 ， 
这 样 就 将 模型 参数 优化 为 了 最 大 化 边缘 。 我 们 现在 修改 这 种 方法 ， 使 得 数据 点 允许 在 边缘 
边界 的 “错误 侧 ”， 但 是 增加 一 个 惩罚 项 ， 这 个 惩罚 项 随 着 与 决策 边界 的 距离 的 增 大 而 增 大 。 
对 于 接 下 来 的 最 优化 问题 ， 令 这 个 惩罚 项 是 距离 的 线性 函数 比较 方便 。 为 了 完成 这 一 点 ， 
我 们 引入 松弛 变量 (slack variable) & > 0， 其 中 nn = 1,...,N， 每 个 训练 数据 点 都 有 一 个 松 
弛 变量 (Bennett, 1992; Cortes and Vapnik, 1995) 。 对 于 位 于 正确 的 边缘 边界 内 部 的 点 或 者 边 
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图 7.3: 松弛 变量 6 > 0 的 说 明 。 圆 圈 标 记 的 数据 点 是 支持 向 量 。 


界 上 的 点 ，&n = 0， 对 于 其 他 点 ， 押 = | 如一 yznjl。 因 此 ， 对 于 位 于 决策 边界 y(zn) = 0 上 的 


点 ， 包 三 1， 并 且 纪 > 1 的 点 就 是 被 误 分 类 的 点 。 这 样 ， 公式 (7.5) 给 出 的 精确 分 类 的 限制 条 
件 就 被 替换 为 
tnyV(zZn) > 1— én, n=1,...,N (7.20) 


其 中 松弛 变量 被 限制 为 满足 61, > 0。én = 0 的 数据 点 被 正确 分 类 ， 要 么 位 于 边缘 上 ， 要 么 在 边缘 
的 正确 一 侧 。0 < 6 < 1 的 点 位 于 边缘 内 部 ， 但 是 在 决策 边界 的 正确 一 侧 。é&%, > 1 的 点 位 于 决策 
边界 的 错误 一 侧 ， 是 被 错误 分 类 的 点 。 如 图 7.3 所 示 。 这 种 方法 有 时 被 描述 成 放宽 边缘 的 硬 限 
制 ， 得 到 一 个 软 边 缘 (soft margin) ， 并 且 人 允许 一 些 训练 数据 点 被 错 分 。 注 意 ， 虽 然 松 弛 变量 允 
许 类 分 布 的 重合， 但 是 这 个 框架 对 于 异常 点 很 敏感 ， 因 为 误 分 类 的 惩罚 随 着 E 线 性 增加 。 

现在 我 们 的 目标 是 最 大 化 边缘 ， 同 时 以 一 种 比较 柔和 的 方式 惩罚 位 于 边缘 边界 错误 一 侧 的 
点 。 于 是 ， 我 们 最 小 化 


N 1 g 
CO_é&+ lol (ra) 
砚 三 半 








其 中 参数 C > 0 控制 了 松弛 变量 惩罚 与 边缘 之 间 的 折 中 。 由 于 任何 被 误 分 类 的 数据 点 都 
有 én > 1， 因 此 2j, én 是 误 分 类 数据 点 数量 的 上 界 。 于 是 ， 参 数 C 类 似 于 作用 相反 的 ) 正则 化 
系数 ， 因 为 它 控制 了 最 小 化 训练 误差 与 模型 复杂 度 之 间 的 折 中 。 在 C 一 oo 的 期 限 情况 下 ， 我们 
就 回 到 了 之 前 讨论 过 的 用 于 线性 可 分 数据 的 支持 向 量 机 。 

我 们 现在 想 要 在 公式 〈7.20) 以 及 én, > 0 的 条 件 下 最 小 化 公式 (7.21) 。 对 应 的 拉 格 朗 日 函数 
为 


1 N N N 
n=1 


n=1 n=1 


其 中 {an > 0} 和 {kn > 0} 是 拉 格 朗 日 乘 数 。 对 应 的 KKT 条 件 为 


an 之 0 (7.23) 
tny(zn)—1+é>=>0 (7.24) 
an(tny(zn) —1+én)=0 (7.25) 
iin 二 0 (7.20) 

én 二 0 (7.27) 

Linén = 0 (7.28) 


其 中 n ==1,...,N。 
我 们 现在 对 w,b 和 {&%} 进 行 最 优化 。 使 用 公式 (7.1) 给 出 的 y(x) 的 定义 ， 我们 有 


oOL Ss 
一 7.29 
0 僵 也 2 antn@ (Zn) (7.29) 
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N 

aL 

= 0 (7.30) 
p= 


Ob 一 
oOL 
Be 0 0.3D 
使 用 这 些 结果 ， 从 拉 格 朗 日 函数 中 消去 w,5V 和 {5&%}， 我 们 得 到 了 下 面 形式 的 拉 格 朗 日 函数 
N 1 NN 
L(a) = an—3 >， >， anamtntmk (Tn, Tm) (7.32) 
N= = 4R=1 


这 与 线性 可 分 的 情况 完全 相同 ， 唯 一 的 区 别 就 是 限制 条 件 多 少 有 些 差异 。 为 了 理解 这 些 限制 条 
件 究 竟 是 什么 ， 我 们 注意 到 ， 由 于 an 是 拉 格 朗 日 乘 数 ， 因 此 必须 有 an > 0。 此 外 ， 公 式 (7.31) 
以 及 pn > 0 表明 an < C。 于 是 ,我 们 关于 对 偶 变 量 {aw} 最 大 化 公式 (7.32) 时 必须 要 满足 以 下 
限制 


0<an<O (7.33) 
N 
ba antn = 0 (7.34) 
n=1 


其 中 n = 1,...,N。 公 式 (7.33) 被 称 为 盒 限 制 (box constraint) 。 这 又 一 次 变 成 了 一 个 二 次 规 
划 的 问题 。 如 果 我 们 将 公式 (7.29) 代入 公式 (7.1) ,我 们 看 到 对 于 新 数据 点 的 预测 又 一 次 使 
用 了 公式 (7.13) 。 

我 们 现在 可 以 表示 最 终 的 解 。 与 之 前 一 样 ， 对 于 数据 点 的 一 个 子 集 ， 有 an = 0， 在 这 种 情况 


下 这 些 数据 点 对 于 预测 模型 (7.13) 没有 贡献 。 剩 余 的 数据 点 组 成 了 支持 向 量 。 这 些 数 据点 满 
足 on > 0， 因 此 根据 公式 (7.25) ， 它 们 必须 满足 

tnV(zZn) = 1— én (7.35) 
如 果 an < C， 那 么 公式 (7.31) 表明 HUn > 0， 根 据 公式 (7.28) ， 这 要 求 & = 0， 从 而 这 些 点 位 


于 边缘 上 。an = C 的 点 位 于 边缘 内 部 ， 并 且 如 果 é&; < 1 则 被 正确 分 类 ， 如 果 6&% > 1 则 分 类 错 
为 了 确定 公式 (71) 中 的 参数 ， 我 们 注意 到 0< an <C 的 支持 向 量 满 


tn bs amtmk (xn, Tm) + , =1 (7.30) 


mES 





与 之 前 一 样 ， 一 个 对 于 数值 计算 比较 稳定 的 解 可 以 通过 求 平均 的 方式 得 到 ， 结 果 为 


1 
b=—— tn, — nt llr = (7.37) 
其 中 人 4 表示 满足 0 < an < C 的 数据 点 的 下 标的 集合 。 

支持 向 量 机 的 另 一 种 等 价 形式 ， 被 称 为 -SYM， 由 Sch61lkopf et al. (2000) 提出 。 它 涉及 到 
最 小 化 





1 NN 
L(a) = 3 D0 (7.38) 
和 三 下- 二 红 
限制 条 件 为 
0<mm< 克 (7.39) 
N 
> antn = (7.40) 
= 
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图 7.4: SVM 应 用 于 二 维 不 可 分 数据 集 的 例子 。 圆 圈 表 示 支 持 向 量 。 


N 
> an>v (7.41) 
各 二 1 


这 种 方法 的 优点 是 ， 参 数 v 代 替 了 参数 C， 它 既 可 以 被 看 做 边缘 错误 (margin error) (én > 0 的 
点 ， 因 此 就 是 位 于 边缘 边界 错误 一 侧 的 数据 点 ， 它 可 能 被 误 分 类 也 可 能 没 被 误 分 类 ) 的 上 界 ， 
也 可 以 被 看 做 支持 向 量 比例 的 下 界 。 图 7.4 给 出 了 zx-SVM 用 于 人 造 数 据 集 的 一 个 例子 。 这 里 使 用 
了 形 如 exp(-?|z 一 到 2) 的 高 斯 核 ， 且 7 = 0.45。 

虽然 对 新 输入 的 预测 只 通过 支持 向 量 完 成 ， 但 是 训练 阶段 〈( 即 确定 参数 wa 和 的 阶段 ) 使 用 了 
整个 数据 集 ， 因 此 找到 一 个 解决 二 次 规划 问题 的 高 效 算法 很 重要 。 我 们 首先 注意 到 由 公式 
(7.10) 或 公式 〈7.31) 给 出 目标 函数 L(a) 是 二 次 的 ， 因 此 如 果 限 制 条 件 定义 了 一 个 是 区域 (由 
于 限制 条 件 的 线性 性 质 ， 实 际 情况 确实 是 这 样 ) ， 那 么 任意 局 部 最 优 解 也 是 全 局 最 优 解 。 使 用 
传统 的 方法 直接 求解 二 次 规划 问题 通常 是 不 可 行 的 ， 因 为 需要 的 计算 量 和 存储 空间 都 相当 大 ， 
因此 我 们 需要 寻找 更 实际 的 方法 。 分 块 (chunking) 方法 (Vapnik, 1992) 利用 了 下 面 的 事实 : 
如 果 我 们 将 核 矩 阵 中 对 应 于 拉 格 朗 日 乘 数 等 于 零 的 行 和 列 删除 ， 那 么 拉 格 朗 日 函数 不 变 。 这 使 
得 完全 的 二 次 规划 问题 被 分 解 为 一 系列 小 的 二 次 规划 问题 ， 这 些小 的 问题 的 目标 是 识别 出 所 
有 的 非 零 拉 格 朗 日 乘 数 ， 然 后 丢弃 其 他 的 。 分 块 可 以 通过 保护 共 斩 梯 度 (protected conjugate 
gradient) 方法 实现 (Burges, 1998) 。 虽 然 分 块 可 以 将 二 次 函数 中 矩阵 的 大 小 从 数据 点 的 个 数 的 
平方 减 小 到 近似 等 于 非 零 拉 格 朗 日 乘 数 的 个 数 的 平方 ， 但 是 对 于 大 规模 应 用 来 说 ， 这 个 数量 仍 
然 过 大 ， 从 而 内 存 无 法 满足 要 求 。 分 解 方法 (decomposition method) (Osuna et al., 1996) 也 解 
决 一 系 列 较 小 的 二 次 规划 问题 ， 但 是 这 些 问题 被 设计 为 具有 同样 的 大 小 ， 因 此 这 个 方法 可 以 应 
用 于 任意 规模 的 数据 集 。 然 而 ， 这 种 方法 仍然 涉及 到 二 次 规划 子 问 题 的 数值 解 ， 求 出 这 些 数值 
解 很 困难 ， 代 价 很 高 。 一 种 最 流行 的 训练 支持 向 量 机 的 方法 被 称 为 顺序 最 小 化 优化 (sequential 
minimal optimization) ， 或 者 称 为 SMO (Platt, 1999) 。 这 种 方法 考虑 了 分 块 方法 的 极限 情况 ， 
每 次 只 考虑 两 个 拉 格 天 日 乘 数 。 这 种 情况 下 ， 子 问题 可 以 解析 地 求解 ， 因 此 避免 了 数值 二 次 
规划 。 选 择 每 一 步 又 中 需要 考虑 的 拉 格 朗 日 乘 数 对 时 ， 使 用 了 局 发 式 的 方法 。 在 实际 应 用 
中 ，SMO 与 训练 数据 点 数量 的 关系 位 于 线性 与 二 次 之 间 ， 取 决 于 具体 的 应 用 。 

我 们 已 经 看 到 核 通 数 对 应 于 特征 空间 中 的 内 积 。 特 征 空间 可 以 是 高 维 的 ， 甚 至 是 无 穷 维 的 。 
通过 直接 对 核 函 数 操作 ， 而 不 显 式 地 引入 特征 空间 ， 支 持 向 量 机 或 许 在 一 定 程 度 上 避免 了 维度 
灾难 的 问题 。 然 而 ， 事 实 并 非 如 此 ， 因 为 限制 了 特征 空间 维度 的 特征 的 值 之 间 存 在 限制 。 为 了 
说 明 这 一 点 ， 考 虑 一 个 简单 的 二 阶 多 项 式 核 ， 我 们 可 以 用 它 的 分 量 进行 展开 


k(z, Zz) -= (1 十 x12) 三 (1 十 Z121 十 Za2o)2 
一 1 十 27121 十 27o2zo 十 2 十 27121222o2 十 2 


站 (1, V271, V272, 71, V2z172， Z2)(1， V22z1， V22z2， oe V2z1%2, 22)7 
= P(x) pz) 
于 是 这 个 核 函 数 表示 六 维特 征 空间 中 的 一 个 内 积 ， 其 中 输入 空间 到 特征 空间 的 映射 由 向 量 阴 

















(7.42) 
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之 
一 2 一 | 0 1 2 
图 7.5: 支持 向 量 机 使 用 的 " 匀 链 "误差 函数 的 图 像 ， 用 蓝 色 表示 。 同 时 画 出 的 还 有 logistic 回 归 的 误差 函 
数 ， 使 用 因子 1/ ln(2) 重 新 放 缩 ， 从 而 通过 点 (0,1)， 用 红色 表示 。 还 画 出 了 误 分 类 误差 图 数 (黑色) 和 平 
方 误差 函数 (绿色 ) 。 


数 p(z) 描 述 。 然 而 ， 对 这 些 特征 加 权 的 系数 被 限制 为 具体 的 形式 。 因 此 ， 原 始 二 维 空间 zx 中 的 
任意 点 集 都 会 被 限制 到 这 个 六 维特 征 空间 中 的 二 维 非 线性 流 形 中 。 

我 们 已 经 强调 了 这 个 事实 : 支持 向 量 机 不 提供 概率 输出 ， 而 是 对 新 的 输入 进行 分 类 决 
策 。Veropoulos et al. (1999) 讨论 了 对 SVM 的 修改 ， 使 其 能 控制 假 阳 性 和 假 阴性 之 间 的 折 中 。 
然而 ， 如 果 我 们 希望 把 SVM 用 作 较 大 的 概率 系统 中 的 一 个 模块 ， 那 么 我 们 需要 对 于 新 的 输 
入 z 的 类 别 标签 ;的 概率 预测 。 

为 了 解决 这 个 问题 ，Platt (2000) 提出 了 使 用 logistic sigmoid 函 数 拟 合 训练 过 的 支持 向 量 机 
的 输出 的 方法 。 具 体 来 说 ， 需 要 求解 的 条 件 概率 被 假设 具有 下 面 的 形式 


p(t=1|2z)=o(Ay(z)+B) (7.43) 


其 中 y(z) 由 公式 (7.1) 定义 。 参 数 4 和 B 的 值 通 过 最 小 化 交 又 炉 误 差 函 数 的 方式 确定 。 交 又 人 
误差 函数 根据 由 y(zn) 和 本 组 成 的 训练 数据 集 定 义 。 用 于 拟 合 sigmoid 函 数 的 数据 需要 独立 于 训练 
原始 SVM 的 数据 ， 为 了 避免 严重 的 过 拟 合 现象 。 这 种 两 个 阶段 的 方法 等 价 于 假设 支持 向 量 机 的 
输出 y(z) 表 示 属 于 类 别 t = 1 的 z 的 对 数 概率 。 由 于 SVM 的 训练 过 程 并 没有 体现 这 种 倾向 ， 因 
此 SVM 给 出 的 对 后 验 概率 的 近似 结果 比较 差 (Tipping, 2001) 。 

















7.1.2 与 logistic 回 归 的 关系 


与 线性 可 分 的 情形 一 样 ， 对 于 线性 不 可 分 的 概率 分 布 ， 我 们 可 以 用 最 小 化 正则 化 的 误差 函数 
的 方法 重新 表示 SVM。 这 也 使 得 我 们 能 够 强调 与 logistic 回 归 模 型 之 间 的 相似 性 和 差别 。 

我 们 已 经 看 到 ， 对 于 位 于 边缘 边界 正确 一 侧 的 数据 点 ， 即 满足 yn 如 > 1 的 数据 点 ， 我 们 
有 én 二 0， 对 于 剩余 的 数据 点 ， 我 们 有 所 = 1 一 yntn。 因 此 目标 水 数 (7.21) 可 以 写成 (忽略 整 
体 的 具有 可 乘 性 的 常数 ) 下 面 的 形式 


N 
DEsv(yntn) + Mwll? (7.44) 
三 1 
其 中 入 = (2C) ,Esv() 是 匀 链 (hinge) 误差 函数 ， 定 义 为 
Fsv (yntn) 一 [1 yntn|+ (7.45) 


其 中 [+ 表示 正 数 部 分 。 这 个 函数 之 所 以 被 称 为 匀 链 误差 函数 ， 是 因为 它 的 形状 ， 如 图 7.5 所 
示 。 它 可 以 被 看 做 误 分 类 误差 函数 的 一 个 近似 。 误 分 类 误差 函数 是 我 们 在 理想 情况 下 希望 最 小 
化 的 函数 ， 它 也 被 画 在 了 图 7.5 中 。 

当 我 们 考虑 4.3.2 节 的 logistic 回 归 模 型 的 时 候 ， 我 们 发 现 比较 方便 的 做 法 是 对 目标 变 
量 t € {0,1} 进 行 操作 。 为 了 与 支持 向 量 机 进行 对 比 ， 我 们 首先 使 用 目标 变量 t+ < {一 1,1} 重 
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写 最 大 似 然 logistic 回 归 函 数 。 为 了 完成 这 一 点 ， 我 们 注意 到 p(t = 1 | y) = ay)， 
其 中 y(z) 由 公式 (7.1) 给 出 , oy) 是 公式 (4.59) 给 出 的 logistic sigmoid 函 数 。 此 
p(t 二 一 1|1y) = 二 1 一 o(y) =- 人， 其 中 我 们 用 到 了 logistic sigmoid 函 数 的 性 质 ， 因 此 我 们 有 


p(t | y) = o(vyt) (7.40) 


从 这 个 式 子 中 我 们 可 以 通过 对 似 然 函数 取 负 对 数 的 方式 构造 一 个 误差 函数 。 带 有 正则 化 项 的 误 
差 函 数 的 形式 为 


寺 


N 
> Bra(yntn) + Mlwll? (7.47) 
n=1 
其 中 
五 PR 人 (zt -= ln(1 十 exp(—yt)) (7.48) 


为 了 与 其 他 的 误差 函数 进行 比较 ,我们 可 以 除 以 ln(2) 使 得 误差 函数 通过 点 (0, 1)。 重 新 标 度 的 误 
差 函 数 也 被 画 在 了 图 7.5 中 。 我 们 看 到 它 的 形式 与 支持 向 量 机 的 误差 函数 类 似 。 关 键 的 区 别 在 
于 BEsv( 约 的 平台 区 域 产 生 了 稀 玻 解 。 

logistic 误 差 函 数 与 匀 链 损失 都 可 以 看 成 对 误 分 类 误差 函数 的 连续 近似 。 有 了 时 用 于 解决 分 类 问 
题 的 另 一 个 连续 近似 的 误差 函数 时 平方 和 误差 函数 ， 也 被 画 在 了 图 7.5 中 。 但 是 ， 它 具有 下 面 的 


性 质 : 它 会 着 重 强 调 那 些 被 正确 分 类 的 在 正确 的 一 侧 距 离 决 策 边界 较 远 的 点 。 如 果 这 些 点 是 误 
分 类 的 点 ， 那 么 这 些 点 也 会 被 赋予 较 高 的 权 值 。 因 此 如 果 我 们 的 目标 是 最 小 化 分 类 错误 率 ， 那 


么 一 个 单调 递减 的 误差 函数 是 一 个 更 好 的 选择 。 
7.1.3 多 类 SVM 


基本 的 支持 向 量 机 时 一 个 两 类 分 类 器 。 然 而 在 实际 应 用 中 ， 我 们 经 常 要 处 理 涉 及 到 天 > 2 个 
类 别 的 问题 。 于 是 ， 将 多 个 两 类 SVM 组 合 构造 多 类 分 类 器 的 方法 被 提出 来 。 

一 种 常用 的 方法 (Vapnik, 1998) 是 构建 天 个 独立 的 SVM， 其 中 第 K 个 模型 办 (z) 在 训练 时 ， 
使 用 来 自 类 别 Cx 的 数据 作为 正 例 ， 使 用 来 自 剩余 的 K 一 1 个 类 别 的 数据 作为 负 例 。 这 被 称 为 “1 对 
剩余 ”(one-versus-the-rest) 方法 。 然 而 ， 在 图 42 中 ， 我 们 看 到 使 用 独立 的 分 类 器 进行 决策 会 产 
生 不 相 容 的 结果 ， 其 中 一 个 输入 会 同时 被 分 配 到 多 个 类 别 中 。 这 个 问题 有 时 可 以 这 样 解决 : 对 
于 新 的 输入 z， 使 用 下 式 做 预测 

V(Z) = max yx(T) (7.49) 


不 幸 的 是 ， 这 种 局 发 式 的 方法 会 产生 一 个 问题 : 不 同 的 分 类 器 是 在 不 同 的 任务 上 进行 训练 的 ， 
无 法 保证 不 同 分 类 器 产生 的 实数 值 y. (xz) 具有 恰当 的 标 度 。 

“1 对 剩余 方法 的 男 一 个 问题 是 训练 集合 不 平衡 。 例 如 ， 如 果 我 们 有 10 个 类 别 ， 每 个 类 别 的 
训练 数据 点 的 数量 相同 ， 那 么 用 于 训练 各 个 独立 的 分 类 需 的 训练 数据 由 90% 的 负 例 和 仅仅 10% 的 
正 例 组 成 ， 从 而 原始 问题 的 对 称 性 就 消失 了 。Lee et al. (2001) 提出 了 “1 对 剩余 ”方法 的 一 种 变 
体 。 这 种 变 体 修 改 了 目标 值 ， 使 得 正 例 类 别 的 目标 值 为 +1， 负 例 类 别 的 目标 值 为 -二 。 

Weston and Watkins (1999) 定义 了 一 个 单一 目标 函数 用 来 同时 训练 所 有 的 天 个 SVM， 基 于 
的 是 最 大 化 每 个 类 别 与 其 余 剩余 类 别 的 边缘 。 然 而 ， 这 会 导致 训练 过 程 变 慢 ， 因 为 这 种 方法 需 
要 求解 的 不 是 N 个 数据 点 上 的 开 个 独立 的 最 优化 问题 (整体 代价 为 O(KN?)) ， 而 是 要 求解 一 
个 规模 为 (K 一 1)N 的 单一 的 最 优化 问题 ， 整 体 代 价 为 O(K?N?)。 

另 一 种 方法 是 在 所 有 可 能 的 类 别 对 之 间 训练 和 5- 个 不 同 的 二 分 类 SVM， 然 后 将 测试 数据 
点 分 到 具有 最 高 投票 数 "的 类 别 中 去 。 这 种 方法 有 时 被 称 为 “1 对 1” (one-versus-one) 。 与 之 前 一 
样 ， 我 们 从 图 4.2 可 以 看 到 这 会 导致 最 终 分 类 的 歧义 性 。 并 且 ， 对 于 较 大 的 久 ， 这 种 方法 要 比 “1 
对 剩余 ”的 方法 花费 更 多 的 训练 时 间 。 类 似 地 ， 为 了 计算 数据 点 ， 这 种 方法 需要 更 多 的 计算 。 

后 一 个 问题 可 以 通过 将 每 对 分 类 器 组 织 成 有 向 无 环 图 (不 要 与 概率 图 模型 弄 混淆 ) 的 方式 
解决 ， 这 就 产生 了 DAGSVM (Platt et al., 2000) 。 对 于 天 个 类 别 ， DAGSVM 共 有 -个 分 类 
器 。 每 次 对 新 的 测试 点 分 类 时 ， 只 需要 开 一 1 对 分 类 咒 进 行 计算 。 选 定 的 分 类 器 是 根据 遍历 图 的 
路 径 确 定 的 。 
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图 7.6: -不 敏感 误差 函数 (红色) 的 图 像 。 在 不 敏感 区 域 之 外 ， 误 差 函 数值 随 着 距离 线性 增 大 。 作 为 对 
比 ， 同 时 给 出 了 二 次 误差 函数 〈 绿 色 ) 。 





Dietterich and Bakiri (1995) 提出 了 一 种 不 同 的 方法 解决 多 分 类 问题 。 这 种 方法 基于 的 是 误 
差 -修正 输出 编码 ， 并 且 被 Allwein et al (2000) 用 到 支持 向 量 机 中 。 这 种 方法 可 以 被 看 做 “1 对 
1 投票 方法 的 一 个 推广 。 这 种 方法 中 ， 用 来 训练 各 个 分 类 器 的 类 别 划 分 的 方式 更 加 一 般 。K 个 
类 别 本 身 被 表示 为 选 定 的 两 类 分 类 器 产生 的 响应 的 集合 。 结 合 一 套 合适 的 解码 方法 ， 这 种 方法 
对 于 错误 以 及 各 个 分 类 器 的 输出 的 歧义 性 具有 和 鲁 棒 性 。 虽 然 将 SVM 用 于 多 分 类 问题 仍然 是 一 个 
没有 标准 答案 的 问题 ， 但 是 在 实际 应 用 中 ,“1 对 剩余 "是 被 最 广泛 使 用 的 方法 ， 尽 管 它 有 特定 的 
形式 ， 并 且 有 着 实际 应 用 的 局 限 性 。 

也 存在 单一 类 别 (single-class) 支持 向 量 机 ， 它 解决 与 概率 密度 估计 相关 的 无 监督 学 习 问 
题 。 但 是 ， 这 种 方法 不 是 用 来 对 数据 的 概率 密度 建 模 ， 而 是 想 找到 一 个 光滑 的 边界 将 高 密度 的 
区 域 包 围 起 来 。 边 界 用 来 表示 概率 密度 的 等 分 点 ， 即 从 概率 密度 分 布 中 抽取 的 一 个 数据 点 落 在 
某 个 区 域 的 概率 由 一 个 0 到 1 之 间 的 固定 的 数 给 出 ， 这 个 数 事先 指定 好 。 与 进行 整体 的 密度 估计 
相 比 ， 这 个 问题 更 加 受 限 ， 但 是 对 于 某 些 具体 的 应 用 已 经 足够 了 。 关 于 使 用 支持 向 量 机 解决 这 
个 问题 ， 已 经 有 两 种 方法 被 提出 来 。Sch6lkopf et al. (2001) 的 算法 尝试 找到 一 个 超 平面 ， 将 
训练 数据 中 的 固定 比例 z 的 数据 从 原始 数据 集中 分 离 ， 同 时 最 大 化 超 平面 与 原点 之 间 的 距离 
(边缘 ) 。Tax and Duin (1999) 寻找 特征 空间 中 包含 数据 集 的 比例 数据 的 最 小 球体 。 对 于 只 
是 z 一 2 的 函数 的 核 KLz, x)， 这 两 种 算法 等 价 。 





7.1.4 回归 问题 的 SVM 


我 们 现在 将 支持 向 量 机 推广 到 回归 问题 ， 同 时 保持 它 的 稀 焉 性 。 在 简单 的 线性 回归 模型 中 ， 
我 们 最 小 化 一 个 正则 化 的 误差 函数 





入 
了 > {yn — tn} + 3lwl (07.50) 
n=1 


为 了 得 到 稀 政 解 ， 二 次 误差 函数 被 替换 为 一 个 e- 不 敏感 误差 函数 (e-insensitive error function) 
(Vapnik, 1995) 。 如 果 预 测 y(x) 和 目标 t 之 间 的 差 的 绝对 值 小 于 e， 那 么 这 个 误差 浮 数 给 出 的 误 
差 等 于 零 ， 其 中 e > 0。e- 不 敏感 误差 函数 的 一 个 简单 的 例子 是 


0， 如 果 |y(z) 一 十 < e 
五 。 一 旭 = 7.51 
J [本 其 他 情况 
它 在 不 敏感 区 域 之 外 ， 会 有 一 个 与 误差 相关 联 的 线性 代价 。 如 图 7.6 所 示 。 
于 是 我 们 最 小 化 正则 化 的 误差 函数 ， 形 式 为 
Ee 1 
CY Ee(y(2)— tn)+ zwll (7.52) 
n=1 


其 中 y(z) 由 公式 (7.1) 给 出 。 按 照 惯 例 ， (起 着 相反 作用 的 ) 正则 化 参数 被 记 作 C， 出 现在 误 
差 项 之 前 。 
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图 7.7: SVM 回归 的 说 明 。 图 中 画 出 了 回归 曲线 以 及 ec 不 敏感 "管道 "。 同 时 给 出 的 是 松弛 变量 5 和 的 
例子 。 对 于 e 管 道上 方 的 点 ，& > 0 且 6 = 0， 对 于 e- 管 道 下 方 的 点 ， 00， 对 于 e- 管 道内 部 的 
i 





与 之 前 一 样 ， 通 过 引入 松弛 变量 的 方式 ， 我 们 可 以 重新 表达 最 优化 问题 。 对 于 每 个 数据 
a 我 们 现在 需要 两 个 松弛 变量 6 > 0 和 6 > 0， 其 中 6 > 0 对 应 于 如 > y(zn) + 的 数据 
点 ,> 0 对 应 于 如 < y(zn) 一 的 数 据点， 如 图 7.7 所 示 。 

目标 点 位 于 e- 管 道内 的 条 件 是 yi 一 e < th < yr 十 ce， 其 中 y= y(zxn)。 引 入 松弛 变量 使 得 数 
据点 能 够 位 于 管道 之 外 ， 只 要 松弛 变量 不 为 零 即 可 。 对 应 的 条 件 变 为 


tn < y(zn) 十 Ee 十 (7.53) 
tn 之 V(Zn) ee 所 (7.54) 
这 样 ， 支 持 向 量 回 归 的 误差 函数 就 可 以 写成 





N 
OD + 6) + zlwl (755) 


n=1 


它 必 须 在 限制 条 件 6, > 0 和 5 > 0 和 公式 (7.53) 和 公式 (7.54) 下 进行 最 小 化 。 可 以 这 样 做 : 
引入 拉 格 朗 日 乘 数 an > 0, Gn > 0, pn > 0 以 及 加 > 0， 然 后 最 优化 拉 格 朗 日 函数 





N 届 1 N 并 
L=C 2 (tnt én) + 5) — (pnén + finén) 


ss Ca (7.50) 
N N 要 
一 >》 an(e 十 尔 十 名 一 刀 ) > >》 加 (e 十 名 一 名 十 如 ) 
n=1 n=1 


我 们 现在 使 用 公式 (7.1) 替换 y(z)， 然 后 令 拉 格 朗 日 函数 关于 tw; 六 所 和 名 的 导数 为 零 ， 有 


oL 





了 > n— in)p (7.57) 
N 
”> (n=) 0 (7.58) 
OL 
> ri 7.59 
Oén 
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使 用 这 些 结果 消去 拉 格 朗 日 函数 中 对 应 的 变量 ， 我 们 看 到 对 偶 问 题 涉及 到 关于 {an} 和 {a} 最 大 
化 


(7.61) 


N N 
-ED (ant+in) + (an — ln)tn 


其 中 我 们 已 经 引入 了 核 X(z, 2 ) = bg(z)7 0(z)。 与 之 前 一 样 ， 这 是 一 个 具有 限制 条 件 的 最 大 化 
问题 。 为 了 找到 限制 条 件 ， 我 们 注意 到 av, > 0 和 an > 0 必须 成 立 ， 因 为 它们 是 拉 格 朗 日 乘 数 。 
并 且 jwn > 0 和 应 > 0 以 及 公式 (7.59) 和 公式 (7.60) 要 求 o < C 且 an < C， 因 此 我 们 又 一 次 得 
到 了 盒 限制 

0<as<O (7.62) 
(7.63) 


以 及 条 件 (7.58) 。 
将 公式 (7.57) 代入 公式 (7.1) ,我 们 看 到 对 于 新 的 输入 变量 ， 可 以 使 用 下 式 进行 预测 


V(zZ) = > Cis — Qn)k(z, Tn)+b (7.64) 


这 又 一 次 被 表示 为 核 函 数 的 形式 。 
对 应 的 Karush-Kuhn-Tucker (KKT) 条 件 说 明了 在 解 的 位 置 ， 对 偶 变 量 与 限制 的 乘积 必须 等 
于 零 ， 形 式 为 





an(e 十 尔 十 由 一 如 ) =0 (7.65) 
Bet yt+tn)=0 (7.60) 
(C 一 an) 纪 = 三 0 (7.67) 
(C 一 2 各) 所 =0 (7.68) 


根据 这 些 条 件 ， 我 们 能 得 到 一 些 有 用 的 结果 。 首 先 ， 我 们 注意 到 如 果 c 十 &% 十 yn 一 要 二 0， 那 么 
系数 ww 只 能 非 零 ， 这 表明 数据 点 要 么 位 于 ce- 管道 的 上 边界 上 (&% = 0) ， 要 么 位 于 上 边界 的 上 方 
(6 > 0) 。 类 似 地 ， 人 6, 的 非 零 值 表示 e 十 如 一 yn 十 刀 = 0， 这 些 点 必须 位 于 ce- 管道 的 下 边界 上 
或 者 下 边界 的 下 方 。 

此 外 ， 两 个 限制 十 十 yn 一声 = 0 和 e 十 合 一 yn 十 th. = 0 是 不 兼容 的 。 可 以 这 样 证 明 : 将 两 
式 相 加 ， 注 意 到 6 和 是非 负 的 ， 而 [是 严格 为 正 的 ， 因 此 对 于 每 个 数据 点 zh，a 或 者 人 6, 至 少 
一 个 为 零 ， 或 者 都 为 零 。 

支持 向 量 是 对 于 由 公式 (7.64) 给 出 的 预测 有 贡献 的 数据 点 ， 换 句 话说 ， 就 是 那些 合 
得 an 天 0 或 者 an 六 0 成 立 的 数据 点 。 这 些 数据 点 位 于 -管道 边界 上 或 者 管道 外 部 。 管 道内 部 的 所 
有 点 都 有 an = 2 = 0。 我 们 再 次 得 到 了 一 个 稀 朴 解 ， 在 预测 模型 (7.64) 中 唯一 必须 计算 的 项 
就 是 涉及 到 支持 向 量 的 项 。 

参数 0 可 以 这 样 得 到 : 考虑 一 个 数据 点 ， 满 足 0 < a < C。 根 据 公式 (7.67) ， 一 定 
有 én = 0， 根据 公式 (7.65) ， 一 定 有 ec 十 加 一 如 = 0。 使 用 公式 (7.1) ， 然 后 求解 5, 我 们 有 


b=t,—e— Ww p(Tn) 





N 7.69 
= 如一 ce 一 (am— dn)k(vn, Pm) 0 
m=1 
其 中 我 们 使 用 了 公式 (7.57) 。 通 过 考虑 一 个 满足 0 < 如 < C 的 数据 点 ， 我 们 可 以 得 到 一 个 类 


似 的 结果 。 在 实际 应 用 中 ， 更 好 的 做 法 是 对 所 有 的 这 些 b 的 估计 进行 平均 。 
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图 7.8: -SVM 回归 应 用 到 人 工 生成 的 正弦 数据 集 上 的 说 明 ，SVM 使 用 了 高 斯 核 。 预 测 分 布 曲线 为 红色 曲 
线 ，e- 不 敏感 管道 对 应 于 阴影 区 域 。 此 外 ， 数 据点 用 绿色 表示 ， 支 持 向 量 用 蓝 色 圆圈 标记 。 


与 分 类 问题 的 情形 相同 ， 有 另 一 种 用 于 回归 的 SVM 的 形式 。 这 种 形式 的 SVM 中 ， 控 制 复 杂 
度 的 参数 有 一 个 更 加 直观 的 意义 〈Sch5lkopfet al., 2000) 。 特 别 地 ， 我 们 不 固定 不 敏感 区 域 e 的 
宽度 ， 而 是 固定 位 于 管道 外 部 的 数据 点 的 比例 x。 这 涉及 到 最 大 化 





1 NN 
L(a,d)=— YY (an — hn) (am — Gm)k(wn, wm) 
nN 二 1 :mi 圭 ] 
(7.70) 
丰 a = Qn )tn 
=1 
限制 条 件 为 
0 入 an < 六 (7.71) 
0<an < (7.72) 
N 
> (om 一 总) =0 (7.73) 
n=1 
N 
>》 (om 十 各) < vO (7.74) 


1 
可 以 证 明 至 多 有 vwN 个 数据 点 落 在 不 敏感 管道 外 部 ， 而 至 少 有 wvN 个 数据 点 是 支持 癌 量 ， 因 此 位 
于 管道 上 或 者 管道 外 部 。 
图 7.8 说 明了 使 用 支持 向 量 机 解决 回归 问题 的 一 个 例子 ， 数 据 集 使 用 的 是 正 汞 曲线 数据 集 。 
这 里 参数 “和 C 已 经 手动 选择 完毕 。 在 实际 应 用 中 ,它们 的 值 通常 通过 交叉 验证 的 方法 确定 。 


7.1.5 计算 学 习 理 论 


历史 上 ， 支持 向 量 机 大 量 地 使 用 一 个 被 称 为 计算 学 习 理 论 (computational learning theory) 
的 理论 框架 进行 分 析 。 这 个 框架 有 时 候 也 被 称 为 统计 学 习 理 论 (statistical learning theory) 
(Anthony and Biggs, 1992; Kearns and Vazirani, 1994; Vapnik, 1995; Vapnik, 1998) 。 这 个 框架 起 
源 于 Valiant (1984) ， 他 建立 了 概率 近似 正确 (probably approximately correct) 或 者 称 为 PAC 的 
学 习 框 架 。PAC 学 习 框 架 的 目标 是 理解 为 两 个 给 出 较 好 的 泛 化 能 力 ， 需 要 多 大 的 数据 集 。 这 个 
框架 也 给 出 了 学 习 的 计算 代价 的 界限 ， 虽 然 我 们 不 会 在 这 里 讨论 。 
假设 我 们 从 联合 概率 分 布 p(z, 刀 中 抽取 一 个 大 小 为 N 的 数据 集 D， 其 中 zx 是 输入 变量 ,t 十 
示 类 别 标 签 。 我 们 把 注意 力 集中 于 无 噪声 "的 情况 ， 即 类 别 标签 由 某 个 (未知 的 ) 判别 函 
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数 t = g(z) 确 定 。 在 PAC 学 习 中 ， 空 间 厂 是 一 个 以 训练 集 D 为 基础 的 函数 组 成 的 空间 ， 我 们 从 空 
间 玉 中 抽取 一 个 函数 f(x;D)， 如 果 它 的 期 望 错误 率 小 于 某 个 预先 设 定 的 闵 值 ce， 即 


solI(f (2;D) £0) < 0.75) 


那么 我 们 就 说 函数 jz;D) 具 有 较 好 的 泛 化 能 力 。 其 中 7(:) 是 示 性 函数 ， 期 望 是 关于 概率 分 
布 p(x,t) 的 期 望 。 式 子 左 侧 的 项 是 一 个 随机 变量 ， 因 为 它 依赖 于 训练 数据 集 D。PAC 框 架 要 
求 ， 对 于 从 概率 分 布 p(x,t) 中 随机 抽取 的 数据 集 D， 公 式 (7.75) 成 立 的 概率 要 大 于 1 一 6。 这 
里 是 男 一 个 预先 设 定 的 参数 。 术 语 概率 近似 正确 "来 自 于 下 面 的 要 求 : 以 一 个 较 高 的 概 
率 (大 于 1- 6) ， 使 得 错误 率 较 小 (小 于 e) 。 对 于 一 个 给 定 的 模型 空间 五， 以 及 给 定 的 参 
数 e 和 5，PAC 学 习 的 目标 是 提供 满足 这 个 准则 所 需 的 最 小 数据 集 规模 NN 的 界限 。 在 PAC 学 习 中 ， 
一 个 关键 的 量 是 Vapnik-Chervonenkis 维 度 (Vapnik-Chervonenkis dimension) ， 或 者 被 称 为 VC 维 
度 。 它 提供 了 函数 空间 复杂 度 的 一 个 度量 ,使 得 PAC 框 架 能 够 扩展 到 包含 无 穷 多 个 函数 的 空 
间 。 

在 PAC 框 架 中 推导 出 的 界限 通常 被 看 成 是 最 坏 的 情况 ， 因 为 它们 适用 于 概率 分 布 p(x, 台 的 任 
意 选 择 ， 只 要 训练 集 和 测试 集 是 从 相同 的 概率 分 布 中 (独立 地 ) 抽取 即 可 ， 并 且 它 们 适用 于 函 
数 f(z) 的 任意 选择 ， 只 要 它 属于 三 即 可 。 在 真实 世界 的 机 器 学 习 应 用 中 ， 我 们 处 理 的 分 布 通 常 
有 着 很 强 的 规律 性 ， 例 如 输入 空间 中 的 大 片区 域 有 着 相同 的 类 别 标签 。 由 于 缺少 关于 分 布 形式 
的 任何 假设 ， 因 此 PAC 边 界 非 常 保守 ， 换 句 话 说 ， 它 们 严重 高 估 了 得 到 给 定 的 泛 化 性 能 所 需 的 
数据 集 的 规模 。 因 此 ，PAC 界 限 几 乎 没有 任何 实际 用 处 。 

一 种 提升 PAC 界 限 的 紧 致 程度 的 方法 是 PAC- 贝 叶 斯 框架 (PAC-Bayesian framework ) 
(McAllester, 2003) ， 它 考虑 了 空间 .上 上 的 函数 的 概率 分 布 情况 ， 有 些 类 似 于 贝 叶 斯 方法 中 的 
先 验 概率 。 这 种 方法 仍然 考虑 任意 可 能 的 p(z, 如 的 选择 ， 因 此 虽然 这 种 方法 得 到 的 界限 更 加 紧 
致 ， 但 是 它们 仍然 是 非常 保守 的 。 














7.2 相关 向 量 机 


支持 向 量 机 被 用 于 一 系列 的 分 类 和 回归 的 应 用 中 。 尽 管 这 样 ， 支 持 向 量 机 还 是 有 许多 局 限 
性 ， 某 些 局 限 性 已 经 在 本 章 中 讨论 过 了 。 特 别 地 ，SVM 的 输出 是 一 个 决策 结果 而 不 是 后 验 概 
率 。 并 且 ，SVM 最 开始 用 于 处 理 二 分 类 问题 ， 因 此 推广 到 K > 2 类 有 很 多 问题 。 有 一 个 复杂 度 
参数 C 或 者 x (以 及 回归 问题 中 的 参数 e) 必须 使 用 诸如 交叉 验证 的 方法 确定 。 最 后 ， 预 测 是 用 
核 函 数 的 线性 组 合 表示 的 ， 核 函数 以 训练 数据 点 为 中 心 ， 并 且 必 须 是 正定 的 。 

相关 向 量 机 (relevance vector machine) 或 者 RVM (Tipping, 2001) 是 一 个 用 于 回归 问题 和 分 
类 问题 的 贝 叶 斯 稀疏 核 方 法 ， 它 具有 许多 SVM 的 特征 ， 同 时 避免 了 SVM 的 主要 的 局 限 性 。 此 
外 ， 它 通常 会 产生 更 加 稀 臣 的 模型 ， 从 而 使 得 在 测试 集 上 的 速度 更 快 ， 同 时 保留 了 可 比 的 泛 化 
误差 。 

与 SVM 不 同 ， 我 们 会 发 现 比 较 方 便 的 做 法 是 首先 介绍 RVM 的 回归 形式 ， 然 后 将 其 扩展 到 分 


类 任务 中 。 


7.2.1 用 于 回归 的 RVM 


用 于 回归 的 相关 向 量 机 的 形式 是 第 3 章 研 究 过 的 线性 模型 的 形式 ， 但 是 先 验 概率 有 所 不 同 ， 

从 而 产生 了 稀 朴 解 。 模 型 定义 了 给 定 一 个 输入 向 量 z 的 情况 下 ， 实 值 目标 变量 ! 的 条 件 概率 分 
布 ， 形 式 为 

p(t | x,1w, 8B) = N(t | y(z), 8) (7.70) 


其 中 6 = o 是 噪声 精度 (噪声 方差 的 倒数 ) ,均值 是 由 一 个 线性 模型 给 出 ， 形 式 为 
M 
yz) = > widi(z) = w! $(z) (7.77) 
i=1 


模型 带 有 固定 非 线性 基 函 数 $;(z)， 通 常 包 含 一 个 常数 项 ， 使 得 对 应 的 权 参 数 表示 一 个 “ 偏 置 ”。 
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相关 向 量 机 是 这 个 模型 的 一 个 具体 实例 ， 它 试图 重 现 支 持 向 量 机 的 结构 。 特 别 地 ， 基 浮 数 由 
核 给 出 ， 训 练 集 的 每 个 数据 点 关联 着 一 个 核 。 一 般 的 表达 式 (7.77) 于 是 就 可 以 写成 与 SVM 相 
类 似 的 形式 


N 
V(Z) = 有 UnK(Z,Zn) 十 了 (7.78) 
n=1 


其 中 5 是 一 个 偏 置 参 数 。 在 目前 的 问题 中 ， 参 数 的 数量 为 M = N + 1。y(z) 与 SVM 的 预测 模型 
(7.64) 具有 相同 的 形式 ， 唯 一 的 差别 是 系数 on 在 这 里 被 记 作 wmn。 应 该 强调 的 时 ， 后 面 的 分 析 
对 于 任意 的 基 函 数 的 选择 都 成 立 。 为 了 一 般 起 见 ， 我 们 将 对 公式 (7.77) 给 出 的 形式 进行 操作 。 
与 SVM 的 情形 相反 ， 没 有 正定 核 的 限制 ， 基 函数 也 没有 被 训练 数据 点 的 数量 或 位 置 所 限制 。 

假设 我 们 有 输入 向 量 z 的 N 次 观测 ， 我 们 将 这 些 观测 聚集 在 一 起 ， 记 作 数 据 矩 阵 剑 ， 它 的 
第 n 行 是 z， 其 中 n = 1,.….,N。 对 应 的 目标 值 为 t = (二 tw) 。 因 此 ， 似 然 函数 为 


N 
p(t | X,w,B) = [| pts | zn, ,8) (7.79) 
n=1 


接 下 来 我 们 引入 参数 向 量 w 上 的 先 验 分 布 。 与 第 3 章 一 样 ， 我 们 考虑 零 均值 的 高 斯 先 验 。 然 
而 ，RVM 中 的 关键 区 别 在 于 我 们 为 每 个 权 参 数 w; 都 引入 了 一 个 单独 的 超 参 数 a;， 而 不 是 一 个 共 
享 的 超 参数 。 因 此 权 值 先 验 的 形式 为 

M 


p(wl|a)= [Nw | 0,07)) (7.80) 


i=1 


其 中 Qi 表示 对 应 参数 wi; 的 精度 ，a 表 示 (Q1,.…., qm)”。 我 们 将 会 看 到 ， 当 我 们 关于 这 些 超 参数 
最 大 化 模型 证 据 时 ， 大 部 分 都 趋 于 无 穷 ， 对 应 的 权 参 数 的 后 验 概率 分 布 集中 在 零 附 近 。 与 这 些 
参数 关联 的 基 函 数 于 是 对 于 模型 的 预测 没有 作用 ， 因 此 被 高 效 地 剪 枝 掉 ， 从 而 生成 了 一 个 稀 下 
的 模型 。 

使 用 公式 (3.49) 给 出 的 线性 模型 的 结果 ， 我 们 看 到 权 值 的 后 验 概 率 分 布 还 是 高 斯 分 布 ， 形 
式 为 





p(w |t, X,a,6)=N(w | m,y) (7.81) 

其 中 ,均值 和 方差 为 
m= TETt (7.82) 
5=(A+PETE)! (7.83) 


DN) ,A= diag(o;), 
a 和 6 的 值 可 以 使 用 第 二 类 最 大 似 然 法 (也 被 称 为 证 据 近 似 ) 来 确定 。 这 种 方法 中 ， 我 们 最 
大 化 边缘 似 然 函 数 。 边 缘 似 然 函 数 通 过 对 权 向 量 积分 的 方式 得 到 ， 即 


p(t | X, ao, 0) = 由 plt | 天 ,app)plao | an dw 07.84) 





由 于 这 表示 两 个 高 斯 分 布 的 卷 积 ， 因 此 可 以 计算 求 得 对 数 边缘 似 然 函 数 ， 形 式 为 
Inp(t | X,a,8)= lnN(t| 0,cC) 


7.85 
= -5{N In(2n) +In|C|+t Ct} Ee 

其 中 t = (,.….,tN)”， 并 且 我 们 定义 了 N x N 的 矩阵 C， 形 式 为 
C=6-1IT+®A iE’ (7.80) 
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我 们 现在 的 目标 是 关于 超 参数 w 和 8 最 大 化 公式 (7.85) 。 这 只 需要 对 3.5 节 给 出 的 线性 模型 
的 证 据 近似 进行 微小 的 修改 即 可 。 我 们 可 以 区 分 出 两 种 方法 。 第 一 种 方法 中 ， 我 们 简单 地 令 要 
求解 的 边缘 似 然 函 数 的 导数 等 于 零 ， 然 后 得 到 了 下 面 的 重 估计 方程 


a 新 一 (7.87) 


新 1 _ tSmll? 
4) N — 2 Ys 
其 中 mi 是 公式 (7.82) 定义 的 后 验 均 值 m 的 第 i 个 分 量 。 和 ;度量 了 对 应 的 参数 wi 由 数据 确定 的 效 
果 ， 定义 为 


(7.88) 


Y= 1— oa (7.89) 


其 中 ;是 公式 (7.83) 给 出 的 后 验 协 方差 马 的 第 ;个 对 角 元 素 。 因 此 ， 学 习 过 程 按照 下 面 的 步骤 
进行 : 选择 a 和 6 的 初始 值 ， 分 别 使 用 公式 (7.82) 和 公式 (7.83) 计算 后 验 概率 的 均值 和 协 方 
差 ， 然 后 交替 地 重新 估计 超 参 数 (使 用 公式 (7.87) 和 公式 (7.88) 进行 ) 、 重 新 估计 后 验 均值 
利 协 方差 (使 用 公式 (7.82) 和 公式 (7.83) 进行 ) ， 直 到 满足 一 个 合适 的 收敛 准则 。 

第 二 种 方法 是 使 用 EM 算法 ， 将 在 9.3.4 节 讨论 。 这 两 种 寻找 最 大 化 证 据 的 超 参 数值 的 方法 在 
形式 上 是 等 价 的 。 然 而 ， 在 数值 计算 上 ， 使 用 对 应 于 公式 (7.87) 和 公式 (7.88) 的 直接 最 优化 
方法 可 以 更 快 地 收敛 〈Tipping, 2001) 。 

作为 最 优化 的 结果 ， 我 们 发 现 超 参数 {ai} 的 一 部 分 趋 于 特别 大 的 值 (原则 上 是 无 穷 大 ) ， 因 
此 对 应 于 这 些 超 参数 的 权 参 数 wi 的 后 验 概率 的 均值 和 方差 都 是 零 。 因 此 这 些 参数 以 及 对 应 的 基 
函数 pi;(7z) 被 从 模型 中 去 掉 ， 对 于 新 输入 的 预测 没有 作用 。 在 公式 (7.78) 给 出 的 模型 中 ， 对 应 
于 剩 下 的 非 零 权 值 的 输入 zi 被 称 为 相关 向 量 (relevance vector) ， 因 为 它们 是 通过 自动 相关 性 
检测 的 方法 得 到 的 ， 类 似 于 SVM 中 的 支持 向 量 。 然 而 ， 值 得 强调 的 一 点 是 ， 通 过 自动 相关 性 检 
测 得 到 概率 模型 的 稀 政 性 的 方法 是 一 种 相当 通用 的 方法 ， 可 以 应 用 于 任何 表示 成 基 沪 数 的 可 调 
节 线 性 组 合 形式 的 模型 。 

找到 了 最 大 化 边缘 似 然 函 数 的 超 参 数 a* 和 6* 的 值 之 后 ， 对 于 一 个 新 的 输入 zx， 我 们 可 以 计 
算 t 上 的 预测 分 布 。 使 用 公式 (7.76) 和 公式 (7.81) ， 预 测 分 布 为 











pt | ws Xt,0,B") = {pe | vow")plew | Xt, or, du 
= Nmzd(o),oz(a) 
因此 预测 均值 由 公式 (7.76) 给 出 ， 其 中 ww 被 设置 为 后 验 均值 m.， 预 测 分 布 的 方差 为 
0° (2)= (6) + 9(z) D9(z) (7.91) 


公式 中 的 习 由 公式 (7.83) 给 出 ， 其 中 a 和 6 被 设置 为 了 最 优 值 a* 和 B*。 这 类 似 于 公式 (3.59) 
给 出 的 线性 回归 模型 的 结果 。 回 忆 一 下 ， 对 于 局 部 的 基 函 数 ， 线 性 回归 模型 的 预测 方差 在 
输入 空间 中 没有 基 函 数 的 区 域 会 变 小 。 于 是 ， 对 于 带 有 以 数据 点 为 中 心 的 基 数 的 RVM 的 
情形 ， 当 对 数据 以 外 的 区 域 进行 外 插 时 ， 模 型 会 对 预测 变 得 越 来 越 确定 (Rasmussen and 
Quifionero-Candela, 2005) ， 这 当然 不 是 我 们 想 要 的 结果 。 高 斯 过 程 回 归 的 预测 分 布 没有 这 种 问 
题 。 然 而 ， 高 斯 过 程 做 预测 的 计算 代价 通常 比 RVM 高 得 多 。 

图 7.9 给 出 了 将 RVM 应 用 于 正弦 数据 集 回归 问题 的 一 个 例子 。 这 里 ， 只 声 精度 8 也 通过 证 据 最 
大 化 的 方式 确定 。 我 们 看 到 RVM 中 先 关 向 量 的 数量 比 SVM 中 使 用 的 支持 向 量 的 数量 少 得 多 。 对 
于 一 大 类 回归 任务 和 分 类 任务 ，RVM 生 成 的 模型 通常 比 对 应 的 支持 向 量 机 生成 的 模型 简洁 了 一 
个 数量 级 ， 从 而 使 得 处 理 测 试 数据 的 速度 有 了 极 大 的 提升 。 值 得 注意 的 是 ， 与 SVM 相 比 ， 这 种 
稀 足 性 的 增 大 并 没有 减 小 泛 化 误差 。 

与 RVM 相 比 ，SVM 的 一 个 主要 缺点 是 训练 过 程 涉及 到 优化 一 个 非 凸 的 函数 ， 并 且 与 一 个 效 
果 相 似 的 SVM 相 比 ， 训 练 时 间 要 更 长 。 对 于 有 M 个 基 函 数 的 模型 ， RVM 需 要 对 一 个 M x M 的 
矩阵 求 着， 这 通常 需要 O(M3 引 ) 次 操作 。 在 类 似 SVM 的 模型 (7.78) 这 一 具体 情形 下 ， 我 们 
有 AM = N+1。 正 如 我 们 已 经 注意 到 的 那样 ， 存 在 训练 SVM 的 高 效 方法 ， 它 的 计算 代价 大 致 


(7.90) 
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图 7.9: 使 用 与 图 7.8 相 同 的 数据 集 和 相同 的 高 斯 核 进行 RVM 回 归 的 说 明 。RVM 预 测 分 布 的 均值 用 红色 曲线 
表示 ， 预 测 分 布 的 一 个 标准 差 的 位 置 用 阴影 区 域 表示 。 此 外 ， 数 据点 用 绿色 表示 ， 相 关 向 量 用 蓝 色 圆圈 
标记 。 注 意 ， 只 有 3 个 相关 向 量 ， 而 图 7.8 的 v-SYM 有 "7 个 支持 向 量 。 


是 六 的 二 次 函数 。 当 然 ， 在 RVM 的 情况 下 ， 我 们 总 可 以 在 开始 时 将 基 函 数 的 数量 设置 为 小 
于 十 1。 更 重要 的 一 点 是 ， 在 相关 问 量 机 中 ， 控 制 模型 复杂 度 的 参数 以 及 噪声 方差 自动 由 一 次 
训练 过 程 确定 ， 而 在 支持 向 量 机 中 ， 参 数 C 和 e (或 者 x) 通常 使 用 交叉 验证 的 方法 确定 ， 这 涉 
及 到 多 次 训练 过 程 。 此 外 ,在 下 一 节 中 ,我 们 会 推导 另 一 种 训练 相关 向 量 机 的 方法 ， 它 极 大 地 
提升 了 训练 速度 。 


722 稀世 性 分 析 


我 们 之 前 已 经 注意 到 自动 相关 性 检测 的 过 程 使 得 参数 的 一 个 子 集 趋 于 零 。 我 们 现在 更 加 详细 
地 考察 相关 向 量 机 的 稀 蔓 性 的 原理 。 在 这 个 过 程 中 ， 我 们 会 得 到 一 个 与 之 前 的 直接 方法 相 比 更 
快 的 最 优化 超 参 数 的 方法 。 

关于 贝 叶 斯 线性 模型 的 稀 蔗 性 的 来 源 ， 在 进行 数学 的 分 析 之 前 ， 我 们 首先 给 出 一 些 非 形式 化 
的 观点 。 考 虑 一 个 数据 集 ， 这 个 数据 集 由 N = 2 个 观测 二 和 刀 组 成 。 我 们 有 一 个 模型 ， 它 有 一 个 
基 沙 数 9(z)， 超 参数 为 a， 以 及 一 个 各 向 同性 的 噪声 ， 精 度 为 8。 根 据 公式 (7.85) ， 边 缘 似 然 
函数 为 ptt | a,6) = N(t | 0,C)， 其 中 协 方差 矩阵 的 形式 为 


。 
b 


其 中 表示 NN 维 向 量 (9(z1),9(z2))”， 类 似 地 t = (t1,t2)”。 注 意 ， 这 是 t 上 的 一 个 零 均 值 的 高 斯 
过 程 模 型 ， 协 方差 为 C。 给 定 t 的 一 个 特定 的 观测 ， 我 们 的 目标 是 通过 最 大 化 边缘 似 然 函 数 的 
方法 找到 a* 和 B*。 从 图 7.10 中 ， 我 们 看 到 ， 如 果 p 的 方向 与 训练 数据 向 量 t 之 间 没 有 很 好 地 对 
齐 的 话 ， 那 么 对 应 的 超 参数 a 会 趋 于 oo， 基 向 量 会 被 从 模型 中 剪 枝 掉 。 这 种 现象 出 现 的 原因 
是 a 的 任意 有 限 值 总 会 给 数据 一 个 较 低 的 概率 ， 因 此 就 减 小 了 t 的 值 ， 假 设 8 被 设置 为 最 优 值 。 
我 们 看 到 a 的 任意 有 限 值 会 使 得 分 布 在 远离 数据 的 方向 被 拉 长 ， 从 而 增加 了 远离 观测 数据 的 区 
域 的 概率 质量 ， 因 此 就 减 小 了 目标 数据 向 量 本 身 的 概率 密度 的 值 。 对 于 更 一 般 的 M 个 基 疝 
量 2, ,2 的 情形 ， 也 有 类 似 的 直观 含义 ， 即 如 果 垂 直 的 基 疝 量 与 数据 向 量 t 设 有 很 好 地 对 
齐 ， 那 么 它 很 可 能 被 从 模型 中 剪 术 掉 。 

我 们 现在 从 一 个 更 加 数学 的 角度 ， 对 于 涉及 到 M 个 基 函 数 的 一 般 情形 ， 考 察 稀 葡 性 的 原 
理 。 为 了 进行 这 个 分 析 ， 我 们 首先 注意 到 ， 在 公式 (7.87) 给 出 的 参数 Qi 的 重新 估计 的 结果 中 ， 
右 侧 的 项 本 身 也 是 % 的 函数 。 于 是 这 些 结果 表示 隐 式 解 ， 需 要 用 迭代 的 方式 求 出 ， 即 使 对 于 所 
有 的 7 夫 移 oj 都 固定 时 ， 确 定单 一 的 ai 也 需要 迭代 。 

这 给 出 了 解决 RVM 的 最 优化 问题 的 一 个 不 同 的 方法 ， 其 中 我 们 显 式 地 写 出 边缘 似 然 通 数 
(7.85) 中 所 有 对 特定 的 Qi 的 依赖 关系 ， 然 后 显 式 地 确定 驻 点 (Faul and Tipping, 2002; Tipping 
and Faul, 2003) 。 为 了 完成 这 一 点 ,我 们 首先 写 出 由 公式 (7.86) 定义 的 矩阵 C 中 来 自 oi 的 贡 


1 
C= 二 了 十 Pp” (7.92) 
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图 7.10: 贝 叶 斯 线性 回归 模型 的 稀 臣 性 的 原理 说 明 。 图 中 给 出 了 目标 值 的 一 组 训练 向 量 ， 形 式 
为 t = 全 , 妇 ) ， 用 又 号 表示 ， 模 型 有 一 个 基 向 量 p = (4%(zi),%(z2))” ， 它 与 目标 数据 向 量 t 的 对 齐 效果 很 
差 。 左 图 中 ， 我 们 看 到 一 个 只 有 各 向 同性 的 噪声 的 模型 ， 因 此 C = 68- T， 对 应 于 a = co， 有 被 设置 为 概 
率 最 高 的 值 。 右 图 中 ， 我 们 看 到 了 同样 的 模型 ， 但 是 a 的 值 变 成 了 有 限 值 。 在 两 种 情况 下 ， 红 色 椭 圆 都 
对 应 于 单位 马 氏 距离 ，|C| 对 于 两 幅 图 的 取 值 相同 ， 而 绿色 虚线 圆 表示 由 项 5 产生 的 噪声 的 贡献 。 我 们 
看 到 a 的 任意 有 限 值 减 小 了 观测 数据 的 概率 ， 因 此 对 于 概率 最 高 的 解 ， 基 向 量 被 移 除 。 











献 ， 即 


C=p6TT+>》oaTlpjp + or pipt 
py (7.93) 
=C_i+oa pip 
其 中 ;表示 矩阵 更 的 第 ;? 列 ， 即 N 维 向 量 ， 元 素 为 ((Z1) ,Wi(ZN))。 这 与 加 不 同 ， 它 表示 的 
是 更 的 第 " 行 。 抢 阵 C-; 表 示 将 基 函 数 ; 的 贡献 删除 之 后 的 和 矩 阵 C。 使 用 气 阵 恒等式 (C.7) 和 
(C.15) ， 和 矩阵 C 的 行列 式 和 逆 抢 阵 可 以 写成 
IC|=|C-il(l + oar pt Cipi) (7.94) 
Cipip! CT 
Qi + pI OT Pp 
使 用 这 些 结果 ， 我 们 可 以 将 对 数 边 缘 似 然 函 数 (7.85) 写成 下 面 的 形式 。 
L(a) = L(a-_i)+ A(oi) (7.90) 


其 中 ZaQ_i) 是 省 略 了 基 函 数 w; 的 对 数 边缘 似 然 函 数 ， 和 (ai) 被 定义 为 





CEC-， 


一 2 


(7.95) 





1 02 





包含 了 所 有 依赖 于 的 项 。 这 里 我 们 引入 了 两 个 量 
si= Of C-ipi (7.98) 
qi — Pp! Ct (7.99) 
这 里 s% 被 称 为 稀世 度 (sparsity) ，gi; 被 称 为 p; 的 质量 (quality) ， 并 且 正 如 我 们 将 要 看 到 的 那 
样 ，s; 的 值 相对 于 gq; 的 值 较 大 意味 着 基 函 数 p; 更 可 能 被 模型 前 枝 掉 。“ 稀 疏 度 "度量 了 基 录 数 gpi 与 
模型 中 其 他 基 函 数 重 琶 的 程度 ,，“ 质 量 " 度 量 了 基 向 量 %; 与 误差 向 量 之 间 的 对 齐 程度 ， 其 中 误 


差 向 量 是 训练 值 t = (三 tv) 与 会 导致 从 模型 中 被 删除 掉 的 预测 向 量 y_; 之 间 的 差 值 
(Tipping and Faul, 2003) 。 
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图 7.11: ee ee 左 图 中 ， 单 一 的 最 大 值 出 现在 有 限 的 a; 处 ， 此 
时 9 二 4 卓 s; =1 (从 而 q? > s) 。 右 图 中 ， 最 大 值 位 于 ai = oo 的 位 置 ， 此 时 gq? = 1 且 s = 2 (从 
而 gi < si) 。 


在 边缘 似 然 函数 关于 Qi 的 驻 点 处 ， 导 数 
有 


dA(ai) a; 5 一 (az — 8i) 
SS (7.100) 


等 于 零 。 有 两 种 可 能 形式 的 解 。 回 忆 一 下 ai > 0， 我 们 看 到 如 果 q? < s ， 那 么 am 一 co 提供 了 一 
个 解 。 相 反 ， 如 果 ? > si;， 我 们 可 以 解 出 a;， 得 





2 
wi (7.101) 


2 
di — 8i 


图 7.11 给 出 了 这 两 个 解 。 我 们 看 到 质量 项 和 稀 芷 度 项 的 相对 大 小 确定 了 一 个 特定 的 基 向 量 是 否 会 
被 模型 剪 枝 掉 。 一 个 更 加 复杂 的 分 析 (Faul and Tipping, 2002) 基于 边缘 似 然 函 数 的 二 阶 导数 ， 
ee 

在 给 定 其 他 超 参 数 的 值 的 情况 下 ， 这 种 方法 产生 了 a 的 一 个 解析 解 。 结 合 对 
于 RVM 中 稀 芒 性 来 源 的 分 析 上 述 分 析 也 产生 了 一 个 高 速 最 优化 超 参 数 的 实用 算法 。 这 种 算法 
使 用 固定 的 候选 基 向 量 集合 ， 然 后 在 集合 上 循环 ， 确 定 每 个 向 量 是 否 应 该 被 包含 在 模型 中 。 最 
终 的 顺序 稀世 贝 叶 斯 学 习 算 法 描述 如 下 。 


。 如 果 求 解 回归 问题 ， 初 始 化 6。 


* 使 用 一 个 基 浮 数 p1 进 行 初始 化 ， 用 公式 (7.101) 确定 超 参数 al ， 其 余 的 7 取 1 的 超 参 
数 aj 被 初始 化 为 无 穷 大 ， 从 而 只 有 gp1 被 包含 在 模型 中 。 


， 对 于 所 有 基 函 数 ， 计 算 习 和 mm， 以 及 d 和 si: 
选择 一 个 候选 的 基 函 数 pi。 


， 如果 g? > si 且 ai < co， 从 而 基 向 量 w; 已 经 被 包含 在 了 模型 中 ， 那 么 使 用 公式 (7.101) 更 
新 Qi。 


。 如果 ao: > si 上 且 ai = co， 那 么 将 wp; 添加 到 模型 中 ， 使 用 公式 (7.101) 计算 ai。 
。 如 果 g? < s; 且 a; < co， 那 么 从 模型 中 删除 基 函 数 mj ， 令 ai = co。 

。 如果 求解 回归 问题 ， 更 新 8。 

。 如 果 收 敛 ， 则 算法 终止 ， 否 则 回 到 第 3 步 。 


注意 ， 如 果 q? < s; 且 Qi = co， 那 么 基 函 数 wpi 已 经 从 模型 中 被 去 除 掉 了 ， 不 需要 采取 动作 。 
在 实际 应 用 中 ， 比 较 方 便 的 做 法 是 计算 下 面 的 量 


Or=pi Ct (7.102) 
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Si= PL Cp; (7.103) 
这 样 ， 质 量 和 稀 玻 性 变量 可 以 表示 为 





ai 
7.104 
本 (7.104) 
Qi9; 
一 一 一 7.105 
Qi 一 Si ( ) 
注意 ， 当 Qi = co 时 ， 我 们 有 9i = Qi; 以 及 si = S;。 使 用 公式 (C.7) ， 我 们 有 
Qi= Pplt— pp! EEEBt (7.100) 
Si = Bp! pi— Pp! BEB! yp (7.107) 


其 中 更 和 允 只 涉及 到 对 应 于 有 限 的 超 参 数 a 的 基 向 量 。 在 每 个 阶段 ， 需 要 的 计算 量 为 DO(M2)， 
其 中 以 是 模型 中 激活 的 基 向 量 的 数量 ,通常 比 训练 模式 的 数量 N 要 小 得 多 。 


7.2.3 RVM 用 于 分 类 


我 们 可 以 将 相关 向 量 机 框架 推广 到 分 类 问题 ， 推 广 的 方法 是 将 权 值 的 ARD 先 验 应 用 到 第 4 章 
研究 过 的 概率 线性 分 类 模型 上 。 首 先 ， 我 们 考虑 二 分 类 问题 ， 目 标 变量 是 二 值 变量 ! s {0, 1}。 
这 个 模型 现在 的 形式 为 基 函 数 的 线性 组 合 经 过 logistic sigmoid 函 数 的 变换 ， 即 


V(zZ,U) = 0 (wb(z)) (7.108) 


其 中 o() 是 公式 (4.59) 定义 的 logistic sigmoid 函 数 。 如 果 我 们 引入 权 值 w 上 的 高 斯 先 验 ， 那 么 
我 们 就 得 到 了 第 4 章 讨 论 过 的 模型 。 这 里 的 区 别 在 于 ， 在 RVM 中 ， 模 型 使 用 的 是 ARD 先 验 
(7.80) ， 其 中 每 个 权 值 参数 有 一 个 独立 的 精度 超 参数 。 

与 回归 模型 不 同 ， 我 们 不 在 对 参数 向 量 妈 解析 地 求 积 分 。 这 里 ， 我 们 按照 Tipping (2001) 的 
方法 ， 使 用 拉 普 拉 斯 近似 ， 它 曾经 被 应 用 于 一 个 密切 相关 的 问题 ， 即 45.1 节 介绍 的 贝 叶 
斯 logistic 回 归 。 

首先 ， 我 们 初始 化 超 参 数 向 量 w。 对 于 这 个 给 定 的 aw 值 ， 我 们 接 下 来 对 后 验 概率 建立 一 个 高 
斯 近似 ， 从 而 得 到 了 对 边缘 似 然 的 一 个 近似 。 这 个 近似 后 的 边缘 似 然 函数 的 最 大 化 就 引出 了 
对 a 值 的 重新 估计 ， 并 且 这 个 过 程 不 断 重 复 ， 直 到 收敛 。 

让 我 们 详细 研究 这 个 模型 的 拉 普 拉 斯 近似 。 对 于 固定 的 a 值 ，w 的 后 验 概率 分 布 的 众 数 可 以 
通过 最 大 化 下 式 得 到 


lnp(w | t,o) = ln{p(t | w)plw | WW)} -lnp(t| oy) 








N 1 (7.109) 
= > {tnlnyn + (1—tn)ln(l — yn)} — 5 Aw 十 常数 
n=1 





其 中 4 = diag(ai;)。 最 大 化 可 以 使 用 4.3.3 节 讨论 的 迭代 重 加 权 最 小 平方 (IRLS) 方法 完成 。 对 

于 这 个 算法 ,我 们 需要 求 出 对 数 后 验 概率 分 布 的 梯度 向 量 和 Hessian 和 矩阵 。 根 据 公式 (7.109) ， 
Vlnplu |t,a) = Bi(t-y— Aw (7.110) 
VVlnpla |t,a)= -(®BE+ A) (7.111) 


其 中 B 是 一 个 N x N 的 对 角 和 矩阵 ， 元 素 为 bn = yn(1 一 yn)。 向 量 y = ( 凡 ,… ,yw)， 和 矩阵 更 是 
设计 矩阵， 元素 为 和 wm = 9i(xn)。 这 里 ， 我 们 使 用 到 了 logistic sigmoid 函 数 的 导数 的 性 质 
(4.88) 。 在 IRLS 算 法 收敛 的 位 置 ， 负 Hessian 矩 阵 表 示 后 验 概 率 分 布 的 高 斯 近似 的 协 方差 矩阵 
的 逆 矩 阵 。 
后 验 概率 的 高 斯 近似 的 众 数 ， 对 应 于 高 斯 近似 的 均值 ， 可 以 通过 令 公式 (7410) 等 于 零 求 
得 。 得 到 的 拉 普 拉 斯 近似 的 均值 和 方差 的 形式 为 


w= A lB T(t—y) (7.112) 
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图 7.12: 相关 向 量 机 应 用 于 人 工 数据 集 的 说 明 。 左 图 给 出 了 决策 边界 和 数据 点 ， 相 关 向 量 用 圆圈 标记 出 。 
将 这 个 结果 与 图 7.4 给 出 的 对 应 的 支持 向 量 机 的 结果 进行 比较 ， 表 明 RVM 得 到 了 更 稀疏 的 模型 。 右 图 画 出 
0 0 0 其 中 红色 ( 蓝 色 ) 所 占 的 比重 表示 数据 点 属于 红色 ( 蓝 色 ) 类 别 的 概 

= (BBE+A)! (7.113) 
我 们 现在 使 用 这 个 拉 普 拉 斯 近似 来 计算 边缘 似 然 函数 。 使 用 公式 (4.135) 给 出 的 使 用 拉 普 拉 斯 
近似 计算 的 积分 的 一 般 结 果 ， 我 们 有 

ptt o) = /plt | wplw | o) do 
~ p(t | w")p(w” | a) (27) 3 |D3 


如 果 我 们 代入 p(t | w*) 和 p(w”* | a) 的 表达 式 ， 然 后 令 边 缘 似 然 函 数 关 于 a 的 导数 等 于 零 ， 我 们 
有 


(7.114) 








一 了 (3) 于 本 2 一 0 (115) 
定义 ”Yi = 1 一 ai2i， 整 理 ， 可 得 
ij = Cr (7.110) 
这 与 回归 RVM 的 重 估计 公式 (7.87) 相同 。 
如 果 我 们 定义 nm 
t= Bw + Bi(t— yy) (7.117) 


那么 我 们 可 以 将 近似 对 数 边缘 似 然 函 数 写成 下 面 的 形式 
Wellale {NIn(27) + In|C|+ ®TC-E} (7.118) 


其 中 
C=B+®AgP! (7.119) 


这 与 回归 问题 得 到 的 公式 (7.85) 形式 相同 ， 因 此 我 们 可 以 应 用 同样 的 稀 玻 性 分 析 的 过 程 ， 得 到 
同样 的 快速 学 习 算法 ， 这 种 算法 中 ， 我 们 在 每 一 步 最 优化 单独 的 一 个 超 参数 ai。 

图 7.12 给 出 了 将 相关 向 量 机 应 用 于 人 工 生 成 的 分 类 数据 上 的 结果 。 我 们 看 到 相关 向 量 倾 向 于 
不 在 决策 边界 区 域内 ， 这 与 支持 向 量 机 恰好 相反 。 这 与 我 们 之 前 对 于 RVM 的 分 析 是 相 容 的 ， 因 
为 以 位 于 决策 边界 附近 的 数据 点 为 中 心 的 基 函 数 几 (z) 会 产生 一 个 向 量 cj， 它 与 训练 数据 向 
量 t 的 对 齐 效果 较 差 。 

与 SVM 相 比 ， 相 关 向 量 机 的 一 个 潜在 的 优势 是 ， 它 做 出 了 概率 形式 的 预测 。 例 如 ， 对 于 
视频 流 人 脸 跟 踪 的 线性 动态 系统 的 非 线 性 扩展 ， 可 以 用 RVM 来 辅助 构建 它 的 发 射 概率 密度 
(Williams et al., 2005) 。 
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目前 为 止 ， 我 们 已 经 考虑 了 二 分 类 问题 的 RVM。 对 于 K > 2 个 类 别 的 情形 ， 我 们 再 次 使 用 
4.3.4 节 中 的 概率 方法 。 这 种 方法 中 ， 有 上 个 线性 模型 ， 形 式 为 


ak = wilz (7.120) 
这 些 模型 使 用 softmax 函 数 进行 组 合 ， 给 出 下 面 形式 的 输出 。 

= 7.121 
W(®) = Fj exp(o) CO 

这 样 ， 对 数 似 然 函 数 为 ee 
Inp(T |w1,...,wr) = 1 I 0.122) 

开 二 下 三 
其 中 ， 对 于 每 个 数据 点 n，tig 的 表示 方式 是 “1-of-K” 的 形式 , 工 是 一 个 矩阵 ， 元 素 为 th。 与 之 


前 一 样 ， 拉 普 拉 斯 近似 可 以 用 来 最 优化 超 参数 (Tipping, 2001) ， 其 中 模型 和 Hessian 和 矩阵 可 以 
使 用 耻 LS 算 法 得 到 。 与 支持 向 量 机 使 用 的 类 别 对 形式 的 方法 相 比 ，RVM 对 多 分 类 问题 的 处 理 
的 基础 更 加 牢固 ， 并 且 对 于 新 的 数据 点 ， 能 够 给 出 概率 形式 的 预测 。 主 要 的 缺点 是 ，Hessian 和 矩 
阵 的 维度 为 MK x M 天 ， 其 中 M 是 激活 的 基 画 数 的 数量 ， 这 使 得 与 二 分 类 的 RVM 相 比 ， 训 练 的 
计算 代价 多 了 一 个 额外 的 KS 因子 。 

相关 向 量 机 的 主要 缺点 是 ， 与 SVM 相 比 ， 训 练 时 间 相 对 较 长 。 但 是 ，RVM 避 免 了 通过 交叉 
验证 确定 模型 复杂 度 的 过 程 ， 从 而 补偿 了 训练 时 间 的 劣势 。 此 外 ， 因 为 它 产 生 的 模型 更 稀 下 ， 
所 以 它 对 于 测试 点 进行 预测 的 计算 时 间 通 常 更 短 ， 而 对 于 测试 点 的 计算 时 间 通 常 在 实际 应 用 中 
更 加 重要 。 


7.3 ”练习 


(7.1) ”CY) 假设 我 们 有 一 个 输入 向 量 {zw} 以 及 对 应 的 目标 值 t. € {一 1,1} 组 成 的 数据 集 ， 
并 且 假 设 我 们 使 用 Parzen 核 密度 估计 〈 见 2.5.1 节 ) 对 每 个 类 别 内 部 的 输入 向 量 的 概率 密度 分 别 建 
模 ， 核 函数 为 k(x, x')。 假 设 两 个 类 别 具 有 相等 的 先 验 概 率 ， 写 出 最 小 错误 分 类 的 决策 规则 。 证 
明 ， 如 果 核 函数 为 k(x, 2') = zz' ， 那 么 分 类 规则 会 简化 为 将 新 的 输入 向 量 分 配 到 距离 最 近 的 
均值 的 类 别 。 最 后 ， 证 明 ， 如 果 核 函数 为 k(x, zx) = g%(z) %(z)， 那 么 分 类 基于 的 是 特征 空 
间 %(z) 中 的 距离 最 近 的 均值 。 

(7.2) (*) 证 明 ， 如 果 限 制 条 件 (7.5) 右 侧 的 1 被 替换 为 某 个 任意 的 常数 7 > 0， 那 么 最 大 
边缘 超 平面 的 解 保 持 不 变 。 

(7.3) ”(**) 证 明 ， 与 数据 空间 的 维度 无 关 ， 一 个 只 有 两 个 数据 点 的 数据 集 (每 个 点 属于 一 
个 类 别 ) 足以 确定 最 大 边缘 超 平面 的 位 置 。 

(7.4) (**) 证 明 最 大 边缘 超 平面 的 边缘 p 为 





1 N 
= De (7.123) 
n=1 


其 中 {aw} 通 过 在 限制 条 件 (7.11) 和 (7.12) 下 最 大 化 (7.10) 的 方式 得 到 。 
(7.5) (Ge 证 明 上 一 个 练习 中 的 p 和 {anj} 也 满足 


记 = 2L(a) (7.124) 
其 中 L(g) 由 公式 (7.10) 定义 。 类 似 地 ,证 明 
A ao (7.125) 


0 


(6) (*) 考虑 一 个 logistic 回 归 模 型 ， 目 标 变 量 为 te {-1,1}。 如 果 我 们 定 
义 p(t = 二 1|y) = ol(y)， 其 中 y(x) 由 公式 (7.1) 给 出 ， 证明 负 对 数 似 然 函 数 ， 加 上 二 次 正则 化 
项 ， 形式 为 (7.47) 。 
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(77) (*) 考虑 回归 支持 向 量 机 的 拉 格 朗 日 函数 (7.56) 。 通 过 令 拉 格 朗 日 函数 关 
于 ww 六 纪 和 饼 的 导数 等 于 零 ， 然 后 使 用 这 些 结果 消去 对 应 的 变量 ,证明 对 偶 拉 格 朗 日 函数 为 
(7.61) 。 

(7.8) (5) 对 于 7.1.4 太 讨论 的 回归 支持 向 量 机 ， 证 明 ， 所 有 én > 0 的 训练 数据 点 都 
有 on 二 C， 类 似 地 ， 所 有 é&% > 0 的 数据 点 都 有 an = C 。 

(7.9) (*) 验证 公式 (7.82) 和 (7.83) 给 出 的 回归 RVM 的 权 值 上 的 后 验 分 布 的 均值 和 协 方 
差 的 结果 。 

(7.10) ” Gx) 推导 公式 (7.85) 给 出 的 回归 RVM 的 边缘 似 然 函 数 的 结果 ， 方 法 是 使 用 对 指 
数 项 配 平 方 的 方法 ， 计 算 公 式 (7.84) 中 关于 ww 的 高 斯 积分 。 

(7.11) ”G*) 重复 上 一 个 练习 ,但 是 这 次 使 用 一 般 的 结果 (2.115) 。 

(7.12) (**) 证 明 ， 直 接 对 回归 相关 向 量 机 的 对 数 似 然 函数 (7.85) 进行 最 大 化 会 得 到 重 
估计 方程 (7.87) 和 (7.88) ， 其 中 由 (7.89) 定义 。 

(7.13) (**) 在 RVM 回 归 的 证 据 框 架 中 ， 我 们 通过 最 大 化 边缘 似 然 函数 (7.85) ， 得 到 了 
重 估计 方程 (7.87) 和 (7.88) 。 将 这 种 方法 进行 扩展 ， 将 (B.26) 给 出 的 Gamma 分 布 的 超 先 验 
包含 进去 ， 通 过 关于 a 和 6 最 大 化 对 应 的 后 验 概率 分 布 p(t, a, 6 | 和 )， 得 到 a 和 6 的 对 应 的 重 估计 
方程 。 

(7.14) ” (**) 推导 回归 的 相关 向 量 机 的 预测 分 布 结果 “(7.90) 。 证 明 预 测 方差 为 (7.91) 。 

(7.15) CG*) 使 用 公式 (7.94) 和 “(7.95) ,证 明 边缘 似 然 函数 (7.85) 可 以 写成 (7.96) 的 
形式 ， 其 中 入 (Qn) 由 公式 (7.97) 定义 ， 稀 臣 度 和 质量 因子 分 别 由 公式 (7.98) 和 “(7.99) 定义 。 

(7.16) (*) 通过 将 回归 RVM 的 对 数 边 缘 似 然 函 数 (7.97) 关于 超 参数 a; 取 二 阶 导 数 ， 证 明 
公式 (7.101) 给 出 的 驻 点 是 边缘 似 然 函数 的 最 大 值 。 

(7.17) ”CG*) 使 用 公式 (7.83) 和 (7.86) ， 以 及 和 矩阵 恒等式 (C.7) ， 证明 由 公式 
(7.102) 和 “7.103) 定义 的 5% 和 Qn 可 以 写成 (7.106) 和 “(7.107) 的 形式 。 

(7.18) (*) 证 明 , 分 类 相关 向 量 机 的 对 数 后 验 分 布 (7.109) 的 梯度 向 量 和 Hessian 和 矩阵 由 
公式 (7.110) 和 (7.111) 给 出 。 

(7.19) ”(**) 验证 分 类 相关 向 量 机 的 近似 边缘 似 然 函数 (7.114) 的 最 大 化 过 程 会 产生 公式 
(7.116) 给 出 的 超 参数 重 佑 计 方 程 的 结果 。 
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8 图 模型 


概率 在 现代 模式 识别 中 起 着 重要 的 作用 。 我 们 已 经 在 第 1 章 中 看 到 了 概率 论 可 以 使 用 两 个 简 
单 的 方程 (加 和 规则 和 乘积 规则 ) 表示 。 本 书 中 所 有 的 概率 推断 以 及 学 习 操 作 ， 无 论 多 么 复 
杂 ， 都 是 在 重复 使 用 这 两 个 方程 。 因 此 ， 我 们 接 下 来 将 完全 通过 代数 计算 来 对 更 加 复杂 的 模型 
进行 建 模 和 求解 。 然 而 ， 我 们 会 发 现 ， 使 用 概率 分 布 的 图 形 表示 进行 分 析 很 有 好 处 。 这 种 概率 
分 布 的 图 形 表示 被 称 为 概率 图 模型 (probabilistic graphical models) 。 这 些 模型 提供 了 几 个 有 用 
的 性 质 : 


。 它 们 提供 了 一 种 简单 的 方式 将 概率 模型 的 结构 可 视 化 ， 可 以 用 于 设计 新 的 模型 。 
。 通过 观察 图 形 ， 我 们 可 以 更 深刻 地 认识 模型 的 性 质 ， 包 括 条 件 独立 性 质 。 
。 高 级 模型 的 推断 和 学 习 过 程 中 的 复杂 计算 可 以 根据 图 计算 表达 ， 图 隐 式 地 承载 了 背后 的 数 








学 表达 式 。 
一 个 图 由 结 点 (nodes) (也 被 称 为 端点 (vertices) ) 和 它们 之 间 的 链接 〈links) (也 被 称 
为 边 (edges) 或 弧 (arcs) ) 组 成 。 在 概率 图 模型 中 ， 每 个 结 点 表示 一 个 随机 变量 (或 一 组 随 





机 变量 ) ， 链 接 表 示 这 些 变量 之 间 的 概率 关系 。 这 样 ， 图 描述 了 联合 概率 分 布 在 所 有 随机 变量 
上 能 够 分 解 为 一 组 因子 的 乘积 的 方式 ， 每 个 因子 只 依赖 于 随机 变量 的 一 个 子 集 。 我 们 首先 讨论 
贝 叶 斯 网 络 (Bayesian network) ， 也 被 称 为 有 向 图 模型 (directed graphical model) 。 这 个 模型 
中 ， 图 之 间 的 链接 有 一 个 特定 的 方向 ， 使 用 箭头 表示 。 男 一 大 类 图 模型 是 马尔 科 夫 随机 场 
(Markov random fields) ， 也 被 称 为 无 向 图 模型 (undirected graphical models) 。 这 个 模型 中 ， 
链接 没有 箭头 ， 没 有 方向 性 质 。 有 向 图 对 于 表达 随机 变量 之 间 的 因果 关系 很 有 用 ， 而 无 向 图 对 
于 表示 随机 变量 之 间 的 软 限 制 比 较 有 用 。 为 了 求解 推断 问题 ， 通 常 比较 方便 的 做 法 是 把 有 问 图 
和 无 向 图 都 转化 为 一 个 不 同 的 表示 形式 ， 被 称 为 因子 图 (factor graph) 。 

本 章 中 ， 我 们 会 将 注意 力 集中 在 那些 能 够 用 于 模式 识别 和 机 器 学 习 应 用 中 的 图 
模型 的 关键 概念 。 关 于 图 模型 的 更 一 般 的 讨论 ， 可 以 参考 Whittaker (1990) 、Lauritzen ( 
1996) 、Jensen (1996) 、Castillo etal. (1997) 、Jordan (1999) 、Cowelletal. (1999) 以 及 Jor- 
dan (2007) 。 








8.1 贝 叶 斯 网 络 


为 了 理解 有 向 图 对 于 描述 概率 分 布 的 作用 ， 首 先 考虑 三 个 变量 六 c 上 的 一 个 任意 的 联合 分 
布 p(a,b,c)。 注 意 ， 现 阶段 我 们 不 需要 对 这 些 变 量 做 出 任何 更 多 的 假设 ， 例 如 它们 是 离散 的 还 是 
连续 的 。 实 际 上 ， 图 模型 的 一 个 强大 的 方面 是 ， 一 个 具体 的 图 可 以 描述 一 大 类 概率 分 布 。 通 过 
使 用 概率 的 乘积 规则 (1.11) ,我 们 可 以 将 联合 概率 分 布 写成 下 面 的 形式 。 








pla,b,c) = p(c | a,b)pla, b) (8.1) 
再 次 使 用 乘积 规则 ， 这 次 处 理 方程 (8.1) 右 侧 的 第 二 项 ， 我 们 有 
pla,b,c) = p(c | a,b)p(b | a)pla) (8.2) 


注意 ， 这 个 分 解 方法 对 于 任意 的 联合 概率 分 布 的 选择 都 成 立 。 现 在 ， 我们 使 用 一 个 简单 的 图 模 
型 表示 方程 (8.2) 的 右 侧 ， 如 下 所 述 。 首 先 ， 我 们 为 每 个 随机 变量 a, b,c 引入 一 个 结 点 ， 然 后 为 
每 个 结 点 关联 上 公式 (8.2) 右 侧 的 对 应 的 条 件 概 率 。 然 后 ， 对 于 每 个 条 件 概 率 分 布 ， 我 们 在 图 
中 添加 一 个 链接 〈 箭 头 ) ， 链 接 的 起 点 是 条 件 概 率 的 条 件 中 的 随机 变量 对 应 的 结 点 。 因 此 ， 对 
于 因子 p(c | a,5)， 会 存在 从 结 点 a,5 到 结 点 c 的 链接 ， 而 对 于 因子 p(a)， 没 有 输入 的 链接 。 结 果 就 
是 图 8.1 中 的 图 。 如 果 存 在 一 个 从 结 点 a 到 结 点 5 的 链接 ， 那 么 我 们 说 结 点 a 是 结 点 5 的 父 结 点 ， 结 
点 b 是 结 点 a 的 子 结 点 。 注 意 ， 我 们 不 会 形式 化 地 区 分 结 点 和 结 点 对 应 的 变量 ， 而 是 简单 地 使 用 
同样 的 符号 表示 两 者 。 

关于 公式 (8.2) ， 很 有 趣 的 一 点 是 ， 它 的 左 侧 关于 三 个 变量 w b,c 是 对 称 的， 而 右 侧 不 是 。 
实际 上 ， 通 过 进行 公式 〈8.2) 的 分 解 ， 我 们 隐 式 地 选择 了 一 个 特定 的 顺序 ( 即 a,b,c) 。 如 果 选 


251 
wwaibbt.com DODDDODODOD 


SS 


Cc 


图 8.1: 一 个 有 向 图 模型 ， 表 示 三 个 变量 a, b,c 上 的 联合 概率 分 布 ， 对 应 于 公式 (8.2) 右 侧 的 分 解 。 





图 8.2: 有 向 无 环 图 描述 变量 zx1 


择 一 个 不 同 的 顺序 ， 我 们 会 得 到 一 个 不 同 的 分 解 方 式 ， 因 此 就 得 到 一 个 不 同 的 图 表示 形式 。 我 
们 稍 后 会 回头 讨论 这 个 想法 。 

现在 ， 证 我 们 将 图 8.1 给 出 的 例子 扩展 到 天 个 变量 的 联合 概率 分 布 p(z1,.… ,ZK)。 通 过 重复 使 
用 概率 的 乘积 规则 ， 联 合 概率 分 布 可 以 写成 条 件 概 率 的 乘积 ， 每 一 项 对 应 一 个 变量 ， 形 式 如 下 


DZ1D ZK) 一 DZK | 2712ZK-1) .DZ2 | Z1)P(Z1) (8.3) 


对 应 一 个 给 定 的 天， 我 们 可 以 将 其 表示 为 一 个 具有 开 个 结 点 的 有 向 图 ， 每 个 结 点 对 应 于 公式 
(8.3) 右 侧 的 一 个 条 件 概 率 分 布 ， 每 个 结 点 的 输入 链接 包括 所 有 以 编号 低 于 当前 结 点 编号 的 结 
ee 
个 链接 。 

目前 为 止 ， 我 们 操作 的 对 象 是 一 个 完全 一 般 的 联合 概率 分 布 ， 从 而 分 解 方式 以 及 对 应 的 全 连 
接 图 表示 ， 可 以 应 用 于 概率 分 布 的 任意 选择 。 正 如 我 们 将 会 看 到 的 ， 真正 传递 出 图 表示 的 概率 
分 布 的 性 质 的 有 趣 信息 的 是 图 中 链接 的 缺失 (absence) 。 考 虑 图 8.2 的 图 。 这 不 是 一 个 全 连接 的 
图 ， 因 为 从 zl 到 z? 或 者 从 zs 到 Zz7 之 间 不 存在 链接 。 

现在 ， 我 们 将 根据 这 幅 图 ， 写 出 对 应 的 联合 概率 表达 式 。 联 合 概率 表达 式 由 一 系列 条 件 概率 
的 乘积 组 成 ， 每 一 项 对 应 于 图 中 的 一 个 结 点 。 每 个 这 样 的 条 件 概率 分 布 上 只 以 图 中 对 应 结 点 的 父 
结 点 为 条 件 。 例 如 ，xz5 以 zl 和 zs 为 条 件 。 于 是 ，7 个 变量 的 联合 概率 分 布 为 


D(Z1)D(Z2)p(Z3)P(Z4 | Z1,72,73)D(Z5 | Z1,2Z3)D(Z6 | Z4)D(Z7 | Z4, 2Z5) (8 .4 


读者 现 阶 段 应 该 仔细 研究 公式 (8.4) 与 图 8.2 之 间 的 对 应 关系 。 

我 们 现在 说 明 给 定 的 有 向 图 和 变量 上 对 应 的 概率 分 布 之 间 的 一 般 关系 。 在 图 的 所 有 结 点 上 定 
义 的 联合 概率 分 布 由 每 个 结 点 上 的 条 件 概 率 分 布 的 乘积 表示 ， 每 个 条 件 概 率 分 布 的 条 件 都 是 图 
中 结 点 的 父 结 点 所 对 应 的 变量 。 因 此 ， 对 于 一 个 有 天 个 结 点 的 图 ， 联 合 概率 为 


K 
p(x) = [[ (zx | pos) (8.5) 

大 三 并 
其 中 ，pak 表 示 Zx 的 父 结 点 的 集合 ，z = {21 ,ZK}。 这 个 关键 的 方程 表示 有 向 图 模型 的 联合 
概率 分 布 的 分 解 (factorization) 属性 。 虽 然 我 们 之 前 考虑 的 情况 是 每 个 结 点 对 应 于 一 个 变量 的 
情形 ， 但 是 我 们 可 以 很 容易 地 推广 到 让 图 的 每 个 结 点 关联 一 个 变量 的 集合 ， 或 者 关联 向 量 值 的 
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图 8.3: 有 向 图 模型 表示 联合 概率 分 布 (8.6) ， 对 应 于 1.2.6 节 介绍 的 贝 叶 斯 多 项 式 回归 模型 。 


OO 


图 8.4: 一 种 更 加 简洁 的 方式 表示 图 8.3 中 的 图 ， 其 中 我 们 引入 了 一 个 板 (plate) (标记 为 N 的 方 框 ) 来 表 
示 WN 个 结 点 ， 这 些 结 点 中 ， 只 有 一 个 例子 如 被 显 式 地 画 出 。 








变量 。 很 容易 证 明 ， 如 果 公 式 (8.5) 右 侧 的 每 一 个 条 件 概率 分 布 都 是 归 一 化 的 ， 那 么 这 个 表示 
方法 整体 总 是 归 一 化 的 。 
我 们 考虑 的 有 向 图 要 满足 一 个 重要 的 限制 ， 即 不 能 存在 有 向 环 (directed cycle) 。 换 句 话 


说 ， 在 图 中 不 能 存在 这 样 的 路 径 : 从 某 个 结 点 开始 ， 沿 着 链接 中 箭头 的 方向 运动 ， 结 束 点 为 起 
点 。 这 种 没有 有 向 环 的 图 被 称 为 有 向 无 环 图 (directed acyclic graph) ， 或 者 DAG。 这 等 价 于 存 


在 一 个 将 族 点 的 排序 ， 使 得 不 存在 从 某 个 结 点 到 序号 较 小 的 结 点 的 链接 。 


8.1.1 例子 : 多 项 式 回归 


作为 有 向 图 描述 概率 分 布 的 一 个 例子 ， 我 们 考虑 1.2.6 节 介绍 的 贝 叶 斯 多 项 式 拟 合 模型 。 这 个 
模型 中 的 随机 变量 是 多 项 式 系数 向 量 w 和 观测 数据 t = (i,.…., tv)”。 此 外 ， 这 个 模型 包含 输入 
数据 x = (z1,.……，zN) 、 品 声 方差 ?以 及 表示 tw 的 高 斯 先 验 分 布 的 精度 的 超 参 数 a。 所 有 这 些 才 
是 模型 的 参数 而 不 是 随机 变量 。 现 阶段 我 们 只 关注 随机 变量 ， 我 们 看 到 联合 概率 分 布 等 于 先 验 
概率 分 布 p(w) 与 个 条 件 概率 分 布 p(tn | w) 的 乘积 《n=1,.….,N) ， 即 


N 
plt, w) = p(w) [I pltn | w) (8.6) 


S 
由 
已 


图 模型 表示 的 联合 概率 分 布 如 图 8.3 所 示 。 

在 本 书 的 后 面 章节 中 ， 当 我 们 开始 处 理 更 加 复杂 的 模型 时 ， 我 们 会 看 到 ， 像 图 8.3 那 样 显 式 
地 写 出 石 ,…. ,tN 的 结 点 是 很 不 方便 的 。 于 是 ， 我 们 引入 一 种 图 结构 ， 使 得 多 个 结 点 可 以 更 简洁 
地 表示 出 来 。 这 种 图 结构 中 ， 我 们 画 出 一 个 单一 表示 的 结 点 th， 然后 用 一 个 被 称 为 板 (plate) 
的 方 框 圈 起 来 ， 标 记 为 Y， 表 示 有 个 同类 型 的 点 。 用 这 种 方式 重新 表示 图 8.3， 我 们 得 到 了 图 
8.4 所 示 的 图 。 

我 们 有 时 会 发 现 ， 显 式 地 写 出 模型 的 参数 和 随机 变量 是 很 有 帮助 的 。 此 时 ， 公 式 (8.6) 就 
变 成 了 

plt,w | xao2 = pw | a) | [oltn laznc) 


n=1 





对 应 地 ， 我 们 可 以 在 图 表示 中 显 式 地 写 出 x 和 和 a。 为 了 这 样 做 ,我 们 会 遵循 下 面 的 惯例 : 随机 变 
量 由 空心 圆 表示 ， 确 定性 参数 由 小 的 实心 圆 表示 。 如 果 我 们 让 图 8.4 包 含 确 定性 参数 ， 我 们 就 得 
到 了 图 8.5。 

当 我 们 将 图 模型 应 用 于 机 器 学 习 或 者 模式 识别 的 问题 中 时 ， 我 们 通常 将 某 些 随机 变量 设置 为 
具体 的 值 ， 例 如 将 变量 {t;} 根 据 多 项 式 曲 线 拟 合 中 的 训练 集 进行 设置 。 在 图 模型 中 ， 我 们 通过 
给 对 应 的 结 点 加 上 阴影 的 方式 来 表示 这 种 观测 变量 (observed variables) 。 于 是 ， 图 8.5 所 示 的 图 
中 ， 如 果 {t} 是 观测 变量 ， 那 么 就 变 成 了 图 8.6。 注 意 ，w 不 是 观测 变量 ， 因 此 w 是 潜在 变量 
(latent variable) 的 一 个 例子 。 潜 在 变量 也 被 称 为 隐 含 变量 (hidden variable) 。 这 样 的 变量 在 
许多 概率 模型 中 有 着 重要 的 作用 ， 将 在 第 9 章 和 第 12 章 详细 讨论 。 
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8.6: 与 图 8.5 相 同 ， 但 是 结 点 {t} 被 标记 为 阴影 ， 表 示 对 应 的 随机 变量 被 设置 成 它们 在 训练 集 里 的 观测 


观测 到 了 {tj} 的 值 ， 如 果 必 要 的 话 ， 我 们 可 以 计算 系数 的 的 后 验 概率 ， 如 1.2.5 节 讨论 的 那 
样 。 现 阶段 ,我 们 注意 到 ， 这 是 贝 叶 斯 定理 的 一 个 直接 应 用 。 


N 
plw |t) oc pw) [plin lu) GD 
n=1 


其 中 ， 我 们 再 一 次 省 略 了 确定 性 参数 ， 使 得 记号 简洁 。 

通 第 ， 我 们 对 于 ww 这 样 的 参数 本 身 不 感 兴趣 ， 因 为 我 们 的 最 终 目标 是 对 输入 变量 进行 预测 。 
假设 给 定 一 个 输入 值 和 ， 我 们 想 找 到 以 观测 数据 为 条 件 的 对 应 的 t 的 概率 分 布 。 描 述 这 个 问题 的 
图 模型 如 图 8.7 所 示 。 以 确定 性 参数 为 条 件 ， 这 个 模型 的 所 有 随机 变量 的 联合 分 布 为 


N 
p(t,t,w | F,x, a, 0°) = 了 Pttn | Zn ww, 可 p(w | a)p(t | FB, ww,0°) (8.8) 


n=] 
然后 ,根据 概率 的 加 和 规则 ， 对 模型 参数 w 积 分 ， 即 可 得 到 t 的 预测 分 布 


OE / pn 


其 中 我 们 隐 式 地 将 t 中 的 随机 变量 设置 为 数据 集中 观测 到 的 具体 值 。 计 算 的 细节 已 经 在 第 3 章 中 
讨论 过 。 








图 8.7: 多 项 式 回归 模型 ， 对 应 于 图 8.6。 同 时 画 出 了 一 个 新 的 输入 值 2 以 及 对 应 的 模型 精度 t。 
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图 8.8: 一 个 图 模型 ， 表 示 物 体 的 图 像 的 创建 过 程 。 其 中 ， 物 体 的 种 类 〈 一 个 离散 变量 ) 以 及 物体 的 位 置 
和 方向 (连续 变量 ) 具有 独立 的 先 验 概 率 。 图 像 (一 个 像素 灰 度 值 的 向 量 ) 的 概率 分 布 与 物体 的 种 类 以 
及 它 的 位 置 和 方向 无 关 。 


8.1.2 ”生成 式 模型 


许多 情况 下 ， 我 们 希望 从 给 定 的 概率 分 布 中 抽取 样本 。 虽 然 我 们 将 在 第 11 章 用 整 章 的 篇 幅 讨 
论 取样 方法 ， 但 是 这 里 简要 介绍 一 种 方法 是 很 有 意义 的 。 这 种 方法 被 称 为 祖先 取样 (ancestral 
sampling) ， 与 图 模型 特别 相关 。 考 虑 天 个 变量 的 一 个 联合 概率 分 布 pz(z1,.….,zK)， 它 根据 公式 
(8.5) 进行 分 解 ， 对 应 于 一 个 有 向 无 环 图 。 我 们 假设 变量 已 经 进行 了 排序 ， 从 而 不 存在 从 某 个 
结 点 到 序号 较 低 的 结 点 的 链接 。 换 句 话 说， 每 个 结 点 的 序号 都 大 于 它 的 父 结 点 。 我 们 的 目标 是 
从 这 样 的 联合 概率 分 布 中 取样 21,.… ,2K。 

为 了 完成 这 一 点 ， 我 们 首先 选 出 序号 最 小 的 结 点 ， 按 照 概率 分 布 p(7X1) 取 样 ， 记 作 21。 然 
后 ， 我 们 顺序 计算 每 个 结 点 ， 使 得 对 于 结 点 nn， 我 们 根据 条 件 概率 p(x | Pa) 进行 取样 ， 其 中 父 
结 点 的 变量 被 设置 为 它们 的 取样 值 。 注 意 ， 在 每 个 阶段 ， 这 些 父 结 点 的 变量 总 是 可 以 得 到 的 ， 
因为 它们 对 应 于 已 经 采样 过 的 序号 较 小 的 结 点 。 按 照 具体 的 概率 分 布 的 取样 方法 将 会 在 第 11 章 
详细 讨论 。 一 旦 我 们 对 最 后 的 变量 zk 取样 结束 ， 我 们 就 达到 了 根据 联合 概率 分 布 取 样 的 目标 。 
为 了 从 对 应 于 变量 的 子 集 的 边缘 概率 分 布 中 取样 ， 我 们 简单 地 取 要 求 结 点 的 取样 值 ， 忽 略 剩余 
结 点 的 取样 值 。 例 如 ， 为 了 从 概率 分 布 p(z2, z4) 中 取样 ， 我 们 简单 地 对 联合 概率 分 布 取样 ， 然 
后 保留 22, 24 ， 技 弃 剩 余 的 值 {27za 4}。 

对 于 概率 模型 的 实际 应 用 ， 通 常 的 情况 是 ， 数 量 众 多 的 变量 对 应 于 图 的 终端 结 点 (表示 观测 
值 ) ， 较 少 的 变量 对 应 于 洪 在 变量 。 湾 在 变量 的 主要 作用 是 使 得 观测 变量 上 的 复杂 分 布 可 以 表 
示 为 由 简单 条 件 分 布 (通常 是 指数 族 分 布 ) 构建 的 模型 。 

我 们 可 以 将 这 样 的 模型 表示 为 观测 数据 产生 的 过 程 。 例 如 ， 考 虑 一 个 模式 识别 的 任务 ， 其 中 
每 个 观测 值 对 应 于 一 幅 图 像 〈 由 像素 灰 度 值 的 向 量 组 成 ) 。 这 种 情况 下 ， 洪 在 变量 可 以 看 成 物 
体 的 位 置 或 者 方向 。 给 定 一 个 特定 的 观测 图 像 ， 我 们 的 目标 是 找到 物体 上 的 后 验 概率 分 布 ， 其 
中 我 们 对 于 所 有 可 能 的 位 置 和 方向 进行 了 积分 。 我 们 可 以 使 用 图 8.8 的 图 模型 表示 这 个 问题 。 

图 模型 描述 了 生成 观测 数据 的 一 种 因果 关系 (causal) 过 程 (Pearl, 1988) 。 因 此 ， 这 种 模型 
通常 被 称 为 生成 式 模 型 (generative model) 。 相 反 ， 图 8.5 描 述 的 多 项 式 回归 模型 不 是 生成 式 模 
型 ， 因 为 没有 与 输入 变量 z 相 关联 的 概率 分 布 ， 因 此 无 法 从 这 个 模型 中 人 工 生成 数据 点 。 通 过 引 
入 合适 的 先 验 概率 分 布 z(z) ， 我 们 可 以 将 模型 变 为 生成 式 模型 ， 代 价 是 增加 了 模型 的 复杂 度 。 

然而 ， 概 率 模型 中 的 隐 含 变量 不 必 具 有 显 式 的 物理 含义 。 它 的 引入 可 以 仅仅 为 了 从 更 简单 的 
成 分 中 建立 一 个 更 复杂 的 联合 概率 分 布 。 在 任何 一 种 情况 下 ， 应 用 于 生成 式 模型 的 祖先 取样 方 
法 都 模拟 了 观测 数据 的 创造 过 程 ， 因 此 可 以 产生 “幻想 的 "数据 ， 它 的 概率 分 布 (如 果 模 型 完美 
地 表示 现实 ) 与 观测 数据 的 概率 分 布 相 同 。 在 实际 应 用 中 ， 从 一 个 生成 式 模型 中 产生 人 工 生 成 
的 观测 数据 ， 对 于 理解 模型 所 表示 的 概率 分 布 形式 很 有 帮助 。 











8.1.3 ”离散 变量 


我 们 已 经 讨论 了 指数 族 概率 分 布 的 重要 性 ， 我 们 看 到 这 一 类 概率 分 布 将 许多 著名 的 概率 分 布 
当成 了 指数 族 分 布 的 特例 。 虽 然 指 数 族 分 布 相对 比较 简单 ， 但 是 它们 组 成 了 构建 更 复杂 概率 分 
布 的 基本 元 件 。 图 模型 的 框架 在 表达 这 些 基 本 元 件 之 间 的 联系 时 非常 有 用 。 

如 果 我 们 将 有 向 图 中 的 每 个 父 结 点 - 子 结 点 对 的 关系 选 为 共 力 的 ， 那 么 这 样 的 模型 有 一 些 特 
别 好 的 性 质 ， 我 们 稍 后 会 给 出 几 个 例子 。 两 种 情形 很 值得 注意 ， 即 父 结 点 和 子 结 点 都 对 应 于 离 
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图 8.9: (9 全 连接 的 图 描述 了 两 个 天 状态 离散 变量 上 的 一 般 的 分 布 ， 具 有 天 ”-- 1 给 参数 。(p) 通 过 丢弃 结 点 
之 间 的 链接 ， 参 数 的 数量 减 小 到 了 2(K 一 1)。 


散 变 量 的 情形 ， 以 及 它们 都 对 应 高 斯 变量 的 情形 ， 因 为 在 这 两 种 情形 中 ， 关 系 可 以 层次 化 地 推 
广 ， 构 建 任意 复杂 的 有 向 无 环 图 。 我 们 首先 考察 离散 变量 的 情形 。 
对 于 有 着 个 可 能 状态 (使 用 "1-of-K 表达 方式 ) 的 一 元 离散 变量 x， 概 率 p(zx | 1) 为 


K 
rz 1p)= 1 (8.9) 
慷 寺 二 


并 且 由 参数 j= (1,.…,MkK) 控制 。 由 于 限制 条 件 沁 ; px = 1 的 存在 ， 因 此 为 了 定义 概率 分 
布 ， 只 需要 指定 KK 一 1 个 x 的 值 即 可 。 

现在 假设 我 们 有 两 个 离散 变量 zi 和 zz， 每 个 都 有 到 个 状态 ， 我 们 项 对 它们 的 联合 概率 分 
布 建 模 。 我 们 将 zk = 1 和 zx21 = 1 同时 被 观测 到 的 概率 记 作 参数 x+， 其 中 zx1x 表 示 z1 的 第 k 个 分 
量 ，z21 的 意义 与 此 相似 。 联 合 概率 分 布 可 以 写成 


K K 
(v1,22 | 向 = 下 
k=1 I=1 


由 于 参数 /满足 限制 条 件 2 > wrt = 1， 因 此 这 个 分 布 由 K? 一 1 个 参数 控制 。 很 容易 看 到 ， 
对 于 MM 个 变量 的 任意 一 个 联合 概率 分 布 ， 需 要 确定 的 参数 的 数量 为 KM -- 1， 因 此 随 着 变量 1 的 
数量 指数 增长 。 

使 用 概率 的 乘积 规则 ， 我 们 可 以 将 联合 概率 分 布 p(z1, 722) 分 解 为 p(x2 | zl)p(zl1)， 它 对 应 于 
一 个 具有 两 个 结 点 的 图 ,链接 从 结 点 Zi 指向 结 点 zz， 如 图 8.9(g 所 示 。 边 缘 概率 分 布 P(zl) 与 
之 前 一 样 ， 由 天 一 1 个 参数 控制 。 类 似 地 ， 条 件 概 率 分 布 p(zx2 | z1) 需 要 指定 天 一 1 个 参数 ， 确 
定 zi 的 天 个 可 能 的 取 值 。 因 此 ， 与 之 前 一 样 ， 在 联合 概率 分 布 中 ， 需 要 指定 的 参数 的 总 数 
为 (K 1)+K(K-1)=K?-1。 

现在 假设 变量 zl 和 zs? 是 独立 的 ， 对 应 于 图 8.9(b) 所 示 的 图 模型 。 这 样 ， 每 个 变量 由 一 个 独立 
的 多 项 式 概率 分 布 描述 ， 参 数 的 总 数 是 2(K 一 1)。 对 于 MM 个 独立 离散 变量 上 的 概率 分 布 ， 其 中 
每 个 变量 有 个 可 能 的 状态 ， 参 数 的 总 数 为 M(K - 1)， 因 此 随 着 变量 的 数量 线性 增长 。 从 图 的 
1 
了 限制 。 

更 一 般 地 ， 如 果 我 们 有 M 个 离散 变量 zl, .… ,zw， 那 么 我 们 可 以 使 用 有 向 图 来 对 联合 概率 分 
布 建 模 ， 每 个 变量 对 应 于 一 个 结 点 。 每 个 结 点 的 条 件 概 率 分 布 由 一 组 非 负 参数 给 出 ， 同 时 
需要 满足 归 一 化 限制 条 件 。 如 果 图 是 全 连接 的 ， 那 么 我 们 有 一 个 完全 一 般 的 概率 分 布 ， 这 
个 分 布 有 K” 一 1 个 参数 。 而 如 果 图 中 不 存在 链接 ， 那 么 联合 概率 分 布 可 以 分 解 为 边缘 概率 
分 布 的 乘积 ,参数 的 总 数 为 M(K 一 1)。 连 接 度 处 于 二 者 之 间 的 图 使 得 模型 能 够 处 理 比 完全 
分 解 的 概率 分 布 更 加 一 般 的 概率 分 布 ， 同 时 参数 的 数量 比 一 般 的 联合 概率 分 布 的 参数 数量 
少 。 作 为 一 个 说 明 ， 考 虑 图 8.10 所 示 的 结 点 链 。 边 缘 概 率 分 布 p(x1) 需 要 K 一 1 个 参数 ， 而 对 
于 MM 一 1 个 条 件 概 率 分 布 p(zi | zi-1) (其 中 i = 2,.….,M) 需要 K(K 一 1) 个 参数 。 从 而 ， 参 数 的 
总 数 为 K 一 1 十 (M 一 1)K(K 一 1),， 这 是 K 的 二 次 函数 ， 并 且 随 着 链 的 长 度 人 线性 增长 (而 不 是 
指数 增长 ) 。 

另 一 种 减 小 模型 中 独立 参数 数量 的 方法 是 参数 共享 (sharing) ， 也 被 称 为 参数 捆 
扎 (tying) 。 例 如 ， 在 图 810 给 出 的 结 点 链 的 例子 ， 我 们 可 以 使 所 有 的 条 件 概率 分 
布 p(zi | zi-1) (其 中 i = 2,...,M) 由 同样 的 参数 集合 K(K 一 1)。 加 上 控制 21 的 K 一 1 个 参数 ， 
为 了 定义 联合 概率 分 布 所 需 指定 的 参数 的 总 数 为 K? 一 1。 
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X1 X2 XM 


图 8.10: M 个 离散 结 点 组 成 的 链 ， 每 个 结 点 有 KK 个 状态 ， 要 求 指定 KK 一 1 十 (M 一 1)K(K 一 1) 个 参数 ， 它 
随 着 链 的 长 度 M 线 性 增长 。 相 反 ，M 个 结 点 的 一 个 完全 连接 的 图 具有 天” 一 1 个 参数 ， 它 随 着 MM 指数 增 
长 。 


H1 H2 HM 
X1 ] X2 ] ] XM 


图 8.11: 图 8.10 的 模型 的 扩展 ， 包 含 了 控制 离散 分 布 的 参数 的 狄 利克 雷 先 验 分 布 。 





通过 引入 参数 的 狄 利克 雷 先 验 ， 我 们 可 以 将 离散 变量 上 的 图 模型 转化 为 贝 叶 斯 模型 。 从 图 的 
观点 来 看 ， 每 个 结 点 需要 额外 的 父 结 点 表示 对 应 于 每 个 离散 结 点 的 参数 。 这 种 情况 在 图 8.11 中 进 
行 了 说 明 。 如 果 我 们 将 控制 条 件 概率 分 布 plzi | 2;-1) (其 中 i = 2,.…., MM) 的 参数 进行 参数 共 
享 ， 那 么 对 应 的 模型 如 图 8.12 所 示 。 

另 一 种 控制 离散 变量 模型 参数 数量 的 指数 增长 的 方式 是 对 条 件 概率 分 布 使 用 参数 化 的 模型 ， 
而 不 使 用 条 件 概 率 值 的 完整 表格 。 为 了 说 明 这 个 想法 ， 考 虑 图 8.13 所 示 的 图 ， 其 中 所 有 的 结 点 
表示 二 值 变 量 。 每 个 父 结 点 变量 zi; 由 单一 参数 1 控制， 这 个 参数 表示 概率 p(x; = 1)， 从 而 对 
于 MM 个 父 结 点 ， 参 数 总 数 为 M。 但 是 ， 条 件 概 率 分 布 p(z1,.…. ,zm) 需 要 2 个 参数 ， 每 个 参数 表 
示 2” 种 父 结 点 变量 的 可 能 配置 下 的 概率 p(y = 1)。 因 此 ， 通 常 来 说 ， 确 定 这 个 条 件 概率 分 布 的 
参数 的 数量 会 随 着 M 指 数 增 长 。 将 logistic sigmoid 函 数 作用 于 父 结 点 变量 的 线性 组 合 上 ， 我 们 可 
以 得 到 一 个 更 加 简洁 的 条 件 概率 分 布 ， 形 式 为 


M 
p(y=1|2z1,...,TM)= 0 (mn 十 Pou] = o(w!z) (8.10) 


Y 二 并 


其 中 o(a) = (1 十 exp( 一 a))-! 是 一 个 logistic sigmoid 函 数 ，z = (x0,7z1)...,ZM)7 是 一 个 (M 十 1) 维 
和 向量， 表示 父 结 点 的 M 个 状态 加 上 一 个 额外 的 变量 zo， 其 值 被 固定 为 1。w = 
(wo; wi,.…. ,wmM) 是 一 个 M 十 1 个 参数 的 向 量 。 与 一 般 的 情形 相 比 ， 这 是 一 个 更 加 受 限 形式 的 
条 件 概率 分 布 ， 但 是 参数 的 数量 随 着 MM 线性 增长 。 在 这 种 情况 下 ， 类 似 于 选择 多 元 高 斯 分 布 的 
协 方差 矩阵 的 限制 形式 (例如 对 角 和 矩阵 ) 。 采 用 logistic sigmoid 表 示 方 法 的 原因 在 4.2 节 已 经 讨论 


过 。 





8.1.4 线性 高 斯 模型 

在 前 一 节 中 ， 我 们 看 到 了 如 何在 一 组 离散 变量 上 构建 联合 概率 分 布 ， 构 建 方法 是 将 变量 表示 
为 有 向 无 环 图 上 的 结 点 。 这 里 ， 我 们 将 说 明 多 元 高 斯 分 布 如 何 表示 为 一 个 对 应 于 成 分 变量 上 的 
线性 高 斯 模型 的 有 向 无 环 图 。 这 使 得 我 们 在 概率 分 布 上 施加 有 趣 的 结构 ， 这 些 结构 中 的 两 个 相 








图 8.12: 与 图 8.11 相 同 , 但 是 所 有 的 条 件 概 率 分 布 p(xi | zi-1) 共 享 一 个 单一 的 参数 /的 集合 。 
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图 8.13: 一 个 由 M 个 父 结 点 zzZM 和 一 个 单一 子 结 点 9 组 成 的 图 ， 用 来 说 明 离散 变量 的 参数 化 条 件 概 
率 分 布 的 思想 。 


反 的 极端 情况 是 一 般 的 高 斯 分 布 和 对 角 化 协 方差 高 斯 分 布 。 几 种 广泛 使 用 的 方法 是 线性 高 斯 
模型 的 例子 ， 例 如 概率 主 成 分 分 析 ， 因 子 分 析 ， 以 及 线性 动态 系统 (Roweis and Ghahramani, 
1999) 。 在 后 续 章 节 中 ， 当 我 们 详细 讨论 一 些 方法 时 ， 我 们 会 频繁 使 用 本 节 的 结果 。 

考虑 D 个 变量 上 的 任意 的 有 向 无 环 图 ， 其 中 结 点 i 还 示 服 从 高 斯 分 布 的 一 元 连续 随机 变量 zx;。 
这 个 分 布 的 均值 是 结 点 ;的 父 结 点 paui 的 状态 的 线性 组 合 ， 即 


WijTj 十 bi, | (8.11) 


JEPpai 








p(xzi|pa;)=N [ 


其 中 wz 和 凡是 控制 均值 的 参数 ，v 是 z 的 条 件 概率 分 布 的 方差 。 这 样 ， 联 合 概率 分 布 的 对 数 为 
图 中 所 有 结 点 上 的 这 些 条 件 分 布 的 乘积 的 对 数 ， 因 此 形式 为 


D 
ln p(Z) = > _ ln D(Zi | pai) (8.12) 
i= 二 1 





2 
D 
二 2 [ 2 WijTj 一 ,| 十 常数 (8.13) 
JEpasi 
其 中 z = (z1,...,2pD) ,，“ 常 数 " 表 示 与 x 无 关 的 项 。 我 们 看 到 这 是 zx 的 元 素 的 二 次 函数 ， 因 此 联 
合 概率 分 布 pP(z) 是 一 个 多 元 高 斯 分 布 。 

我 们 可 以 递归 地 确定 联合 概率 分 布 的 均值 和 方差 ， 方 法 如 下 。 每 个 变量 z; 的 概率 分 布 都 是 





(以 父 结 点 状态 为 条 件 的 ) 高 斯 分 布 ， 形 式 为 公式 (8.11) 所 示 。 因 此 
Xi 二 WijTj 十 bi 十 VViEs (8.14) 
jEpas 




















其 中 6 是 一 个 零 均 值 单 位 方差 的 高 斯 随机 变量 ， 满 足 Ele] = 0 且 Eleiey] = 1;;， 其 中 ;是 单位 矩 
阵 的 第 i, 7 个 元 素 。 对 公式 (8.14) 取 期 望 ， 我 们 有 
































E [zi] 一 > Wij E[zj] + bi (8.15) 

JEPa; 
这 样 ， 从 一 个 序号 最 低 的 结 点 开始 沿 着 图 递归 地 计算 ， 我 们 就 可 以 求 
出 EE[z] = (区 [zi],……., 正 [zp]) 半 的 各 个 元 素 。 这 里 ， 我 们 再 一 次 假设 所 有 结 点 的 序号 都 大 于 它 的 父 






































结 点 的 句号 。 类 似 地 ， 我 们 可 以 使 用 公式 (8.14) 和 “(8.15) ， 以 递归 的 方式 得 到 p(z) 的 协 方 差 
和 矩阵 的 第 ;2.7 个 元 素 ， 即 

































































cov[zi, zi 三 正 [(zi — Elzi])(z; — Elz;])] 
一 下 — Elzi|) | 和 wik (TE — Elzx]) 十 | (8.10) 
kEpa; 


一 > Wjk cov [zi, Tk] 十 Tijv; 
kepa; 
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图 8.14: 三 个 高 斯 变量 上 的 有 向 图 ， 有 一 个 链接 缺失 。 


因此 协 方差 可 以 从 序号 最 低 的 结 点 开始 ， 递 归 地 计算 。 

让 我 们 考虑 两 个 极端 的 情形 。 首 先 ， 假 设 图 中 不 存在 链接 ， 因 此 图 由 D 个 孤立 的 结 点 
组 成 。 在 这 种 情况 下 ， 不 存在 参数 wj ， 因 此 只 有 D 个 参数 记 和 个 参数 w。 根 据 递归 关系 
(8.15) 和 (8.16) ， 我 们 看 到 p(z) 的 均值 为 (2 ,pp)7， 协 方差 矩阵 是 一 个 对 角 和 矩阵 ， 形 式 
为 diag(ul,. ,up)。 联 合 概率 分 布 总 计 有 2 个 参数 ， 表 示 D 个 独立 的 一 元 高 斯 分 布 组 成 的 集 
内 
现在 考虑 一 个 全 连接 的 图 ， 其 中 每 个 结 点 的 序号 都 低 于 其 父 结 点 的 序号 。 这 样 矩 阵 wij 的 
第 i 行 有 i - 1 项 ， 因 此 矩阵 是 一 个 下 三 角 和 矩阵 ( 主 对 角 线 上 没有 元 素 ) 。 参 数 wi; 的 数量 从 而 可 
以 通过 下 面 的 方式 得 到 : 取 D x D 的 元 素 个 数 D?， 减 去 D， 表 示 主 对 角 线 上 没有 元 素 ， 再 除 以 
2， 因 为 矩阵 只 在 对 角 线 下 方 存在 元 素 ， 从 而 参数 的 总 数 为 9- 。 独 立 参数 {wij} 加 上 协 方差 
和 矩阵 中 的 {vi} ， 因 此 独立 参数 的 总 数 为 24+0 ， 对 应 于 一 个 一 般 的 对 称 协 方差 矩阵 。 

复杂 度 处 于 两 种 极端 情况 之 间 的 图 对 应 于 协 方差 矩阵 取 特 定形 式 的 联合 高 斯 分 布 。 考 虑 图 
8.14 中 的 图 ， 它 在 变量 z1 和 za 之 间 不 存在 链接 。 使 用 递归 关系 (8.15) 和 (8.16) ， 我 们 看 到 联 
合 高 斯 分 布 的 均值 和 协 方差 为 


4 = (b1, bo + walb1, bs + wa2bo + wa2rw21b1) (8.17) 
v1 LU21V1 ?20321021V1 
2 WW21V1 22 十 WZ1 V1 32 (v2 十 1w3101) (8.18) 
WwW32W21V1 Ww32(vV2 十 W321V1) v3 十 wi (v2 二 Ww31v1) 
我 们 已 经 可 以 将 线性 高 斯 图 模型 扩展 到 结 点 表示 多 元 高 斯 变量 的 情形 。 在 这 种 情况 下 ， 我 们 


可 以 将 结 点 ;的 条 件 概率 分 布 写成 下 面 的 形式 


p(T | pai) =N : 





> Wijz; ta (8.19) 
JEPpai 
现在 Wij 是 一 个 矩阵 。 如 果 zi; 和 zj 的 维度 不 同 ， 那 么 Wij 不 是 方 了 泗 。 与 之 前 一 样 ， 很 容易 证 明 
所 有 变量 上 的 联合 概率 分 布 是 高 斯 分 布 。 

注意 ， 我 们 已 经 看 到 高 斯 变量 z 的 均值 凡 的 共 斩 先 验 本 身 是 UL 上 的 一 个 高 斯 分 布 。 此 时 我 们 
已 经 遇 到 了 线性 高 斯 关系 的 一 个 具体 的 例子 。 因 此 zz 和风 的 联合 分 布 就 是 高 斯 分 布 。 这 对 应 于 一 
个 简单 的 具有 两 个 结 点 的 图 ， 其 中 表示 /和 结 点 是 表示 z 的 结 点 的 父 结 点 。A 上 的 概率 分 布 的 均 
值 是 控制 先 验 分 布 的 参数 ， 因 此 它 可 以 被 看 做 超 参数 。 由 于 超人 参数 的 值 本 身 是 未 知 的 ， 因 此 我 
们 可 以 再 一 次 使 用 贝 叶 斯 的 观点 ， 引 入 一 个 超 参数 上 的 先 验 概率 分 布 。 这 个 先 验 概 率 分 布 有 时 
被 称 为 超 先 验 (hyperprior) ， 它 还 是 一 个 高 斯 分 布 。 这 种 构造 过 程 原则 上 可 以 延伸 到 任意 层 
次 。 这 个 模型 是 层次 贝 叶 斯 模型 (hierarchical Bayesian model) 的 一 个 例子 ， 我 们 会 在 后 续 章节 
中 遇 到 这 个 模型 的 更 多 例子 。 











82 条 件 独立 


多 变量 概率 分 布 的 一 个 重要 概念 是 条 件 独 立 (conditional independence) (Dawid, 1980) 。 
考虑 三 个 变量 a, bc， 并 且 假 设 给 定 % c 的 条 件 下 a 的 条 件 概率 分 布 不 依赖 于 的 值 ， 即 


plalb,c) = palo) (8.20) 


我 们 说 ， 给 定 c 的 条 件 下 ，a 条 件 独立 于 5。 如 果 我 们 考虑 以 c 为 条 件 下 的 a,5b 的 联合 分 布 ， 我 们 可 
以 用 一 种 稍微 不 同 的 方式 表示 ， 即 


(8.21) 
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8.15: 三 个 变量 a, b,c 上 的 图 模型 的 三 个 例子 中 的 第 一 个 ， 这 些 例 子 用 来 讨论 有 向 图 模型 的 条 件 独立 性 


其 中 我 们 使 用 了 概率 的 乘积 规则 以 及 公式 (8.20) 。 因 此 ， 我们 看 到 了 ， 以 c 为 条 件 ，a 和 5 的 联 
合 概 率 分 布 分 解 为 了 a 的 边缘 概率 分 布 和 6b 的 边缘 概率 分 布 的 乘积 (全 部 以 c 为 条 件 ) 。 注 意 ,， 我 
们 对 于 独立 性 的 定义 需要 公式 (8.20) 对 于 c 的 所 有 可 能 值 成 立 ， 或 者 等 价 地 需要 公式 (8.21) 
对 于 c 的 所 有 可 能 值 成 立 ， 而 不 是 对 于 某 些 特定 的 c 值 。 我 们 有 时 会 使 用 条 件 独立 的 一 种 简洁 记 
号 (Dawid, 1979) ， 即 

alblc (8.22) 


表示 给 定 c 的 条 件 下 a 与 5 条 件 独立 ， 等 价 于 公式 (8.20) 。 

模式 识别 中 ,使 用 概率 模型 时 ， 条件 独立 性 起 着 重要 的 作用 。 它 简化 了 模型 的 结构 ， 降 低 了 
模型 的 训练 和 推断 的 计算 量 。 我 们 稍 后 会 看 到 这 样 的 例子 。 

如 果 一 组 变量 的 联合 概率 分 布 的 表达 式 是 根据 条 件 概率 分 布 的 乘积 表示 的 〈 即 有 向 图 的 数学 
表达 形式 ) ， 那 么 原则 上 我 们 可 以 通过 重复 使 用 概率 的 加 和 规则 和 乘积 规则 测试 是 否 具 有 洪 在 
的 条 件 独立 性 。 在 实际 应 用 中 ， 这 种 方法 非常 耗 时 。 图 模型 的 一 个 重要 的 优雅 的 特征 是 ， 联 合 
概率 分 布 的 条 件 独 立 性 可 以 直接 从 图 中 读 出 来 ， 不 用 进行 任何 计算 。 完 成 这 件 事 的 一 般 框 
架 被 称 为 "d- 划 分 ”(d-separation) ， 其 中 “和 表示 “有 向 (directed) ”(Pearl, 1988) 。 这 里 ， 我 们 
非 形式 化 地 介绍 了 d- 划 分 的 概念 ， 给 出 了 d- 划 分 准则 的 一 个 一 般 叙 述 。 形 式 化 的 证 明 可 以 参 
考 Lauritzen (1996) 。 


8.2.1 图 的 三 个 例子 
我 们 开始 讨论 有 向 图 的 条 件 独 立 性 质 。 考 虑 三 个 简单 的 例子 ， 每 个 例子 涉及 到 只 有 三 个 结 点 
的 图 。 这 些 例子 会 说 明 d- 划 分 中 的 关键 概念 。 三 个 例子 中 的 第 一 个 如 图 8.15 所 示 。 使 用 公式 
(8.5) 给 出 的 一 般 结果 ， 对 应 于 这 个 图 的 联合 概率 分 布 很 容易 写 出 来 ， 即 
pla,b,c) = pla | c)p(b | c)p(o) (8.23) 


如 果 没 有 变量 是 观测 变量 ， 那 么 我 们 可 以 通过 对 公式 (8.23) 两 边 进行 积分 或 求 和 的 方式 ， 考 
察 a 和 vb 是 否 是 相互 独立 的 ， 即 


pla,b) = > jpla | Op | plo) (8.24) 


一 般 地 ， 这 不 能 分 解 为 乘积 p(a)p(b)， 因 此 
aub|g (8.25) 


其 中 ,表示 空 集 ， 符号 4 表示 条 件 独 立 性 质 不 总 是 成 立 。 当 然 ， 通过 给 各 个 概率 分 布 关 联 具体 
的 数值 ， 可 能 存在 一 个 特定 的 分 布 使 得 条 件 独 立 的 性 质 成 立 ， 但 是 一 般 情形 下 ， 不 能 构建 图 结 
构 。 

现在 假设 我 们 以 变量 c 为 条 件 ， 如 图 8.16 所 示 。 根 据 公 式 (8.23) ,我 们 可 以 很 容易 地 写 出 给 
定 c 的 条 件 下 ，a 和 b 的 条 件 概 率 分 布 ， 形 式 为 


CE EA 
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图 8.16: 与 图 8.15 相 同 ， 但 是 我 们 以 变量 c 为 条 件 。 


a C b 


a 


图 8.17: 3 结 点 图 的 三 个 例子 中 的 第 二 个 ， 这 些 例子 用 来 说 明 有 向 图 模型 的 条 件 独立 框架 。 


因此 我 们 可 以 得 到 条 件 独立 性 质 


alulbl|c 


通过 考虑 从 结 点 0 经 过 结 点 c 到 结 点 b， 我 们 可 以 给 这 个 结果 一 个 简单 的 图 表示 。 结 点 < 被 称 
为 关于 这 个 路 径 “ 尾 到 尾 ”(tail-to-tai) ， 因 为 结 点 与 两 个 箭头 的 尾部 相连 。 这 样 的 一 个 连接 
结 点 c 和 结 点 的 路 径 的 存在 使 得 结 点 相互 依赖 。 然 而 ， 当 我 们 以 结 点 c 为 条 件 时 (如 图 816 所 
示 ) ， 被 用 作 条 件 的 结 点 " 阻 喇 "了 从 a 到 1 的 路 径 ， 使 得 和 1 变 得 (条件 ) 独立 了 。 

我 们 可 以 类 似 地 考虑 图 8.17 给 出 的 图 。 对 应 于 这 幅 图 的 联合 概率 分 布 可 以 通过 一 般 形式 的 公 
式 (8.5) 得 到 ， 形 式 为 

pla,b¢) = plo)p(e | a)plb | o) (8.20) 
首先 ， 假 设 所 有 的 变量 都 不 是 观测 变量 。 与 之 前 一 样 ， 我 们 可 以 考察 ce 和 0 是否 是 相互 独立 的 ， 
方法 是 对 c 积 分 或 求 和 ， 结 果 为 


pla,b) = p(a) > plclapblc=2(opb|oa) 
这 通常 不 能 够 分 解 为 p(a)p(b)， 因 此 
aub|0 (8.27) 
这 个 结果 与 之 前 的 结果 相同 。 
现在 假设 我 们 以 结 点 c 为 条 件 ， 如 图 8.18 所 示 。 使 用 贝 叶 斯 定理 ， 以 及 公式 (8.26) ， 我 们 有 


a,b,c 
pb|o) = Pare 





从 而 我 们 又 一 次 得 到 了 条 件 独 立 性 质 


aluibl|c 
与 之 前 一 样 ， 我 们 可 以 用 图 表示 这 个 结果 。 结 点 c 被 称 为 关于 从 结 点 a 到 结 点 ! 的 路 径 头 到 
尾 ”(head-to-tail) 。 这 样 的 一 个 路 径 连接 了 结 点 a 和 结 点 ?， 并 且 使 它们 互相 之 间 存 在 依赖 关 


系 。 如 果 我 们 现在 观测 结 点 <， 如 图 8.18 所 示 ， 那 么 这 个 观测 “阻隔 * 了 从 a 到 5b 的 路 径 ， 因 此 我 们 
得 到 了 条 件 独 立 性 质 a Lb | c。 


图 8.18: 与 图 8.17 相 同 ， 但 是 现在 以 c 为 条 件 。 
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图 8.19: 3 结 点 图 的 三 个 例子 中 的 最 后 一 个 例子 ， 这 些 例子 用 来 研究 图 模型 中 的 条 件 独立 性 质 。 这 张 图 与 
前 两 个 例子 的 性 质 相 当 不 同 。 


C 


图 8.20: 与 图 8.19 相 同 ， 但 是 以 结 点 c 的 值 为 条 件 。 这 张 图 中 ， 引 入 条 件 结 点 使 得 a 和 wb 之 间 产 生 了 依赖 关 
系 。 





最 后 ， 我 们 考虑 第 三 个 3 结 点 图 的 例子 ， 如 图 8.19 所 示 。 正 如 我 们 将 看 到 的 那样 ， 这 幅 图 的 
行为 比 之 前 两 幅 图 更 微妙 。 
与 之 前 一 样 ， 联 合 概率 分 布 可 以 使 用 我 们 的 一 般 结果 (8.5) 得 到 。 
pla, b,c) = p(a)p(b)p(c | a,d) (8.28) 
首先 考虑 当 没 有 变量 是 观测 变量 时 的 情形 。 对 公式 (8.28) 两 侧 关 于 c 积 分 或 求 和 ， 我 们 有 
pla,b) = pla)p(d) 
因此 当 没 有 变量 被 观测 时 ，a 和 5 是 独立 的 ， 这 与 前 两 个 例子 相反 。 我 们 可 以 把 这 个 结果 写成 
adLb|0 (8.29) 
现在 假设 我 们 以 c 为 条 件 ， 如 图 8.20 所 示 。a 和 ?的 条 件 概率 分 布 为 





_ pl(a, b,c) 
pla,b | C) p(c) 





plc) 
这 通常 无 法 被 分 解 为 乘积 p(a)p(b)， 因 此 
auib|e 
因此 ， 我 们 第 三 个 例子 与 前 两 个 例子 的 行为 相反 。 图 形 上 ,我们 说 结 点 c 关 于 从 a 到 5b 的 路 
径 是 头 到 头 ”(head-to-head) ， 因 为 它 连接 了 两 个 箭头 的 头 。 当 结 点 c 没 有 被 观测 到 的 时 





候 ， 它 "阻隔 "了 路 径 ， 从 而 变量 ac 和 "是 独立 的 。 然 而 ， 以 c 为 条 件 时 ， 路 径 被 解除 阻隔 "， 使 
得 a 和 5 相互 依赖 了 。 

第 三 个 例子 还 有 一 个 更 加 微妙 的 地 方 需要 考虑 。 首 先 ， 我 们 引入 一 些 新 的 概念 。 如 果 存 在 从 
结 点 Xz 到 结 点 y 的 一 条 路 径 ， 其 中 路 径 的 每 一 步 都 沿 着 箭头 的 方向 ， 那 么 我 们 说 结 点 y 是 结 点 2 的 
后 继 (descendant) 。 这 样 ， 可 以 证 明 ， 在 一 个 头 到 头 的 路 径 中 ， 如 果 任 意 结 点 或 者 它 的 任意 一 
个 后 继 被 观测 到 ， 那 么 路 径 会 被 "解除 阻隔 ”。 

总 之 ， 一 个 尾 到 尾 结 点 或 者 头 到 尾 结 点 使 得 一 条 路 径 没 有 阻隔 ， 除 非 它 被 观测 到 ， 之 后 它 就 
阻隔 了 路 径 。 相 反 ， 一 个 头 到 头 结 点 如 果 没 有 被 观测 到 ， 那 么 它 阻 隔 了 路 径 ， 但 是 一 旦 这 个 结 
点 或 者 至 少 一 个 后 继 被 观测 到 ， 那 么 路 径 就 被 "解除 阻隔 "了 。 
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图 8.21: 一 个 3 结 点 图 的 例子 ， 用 来 说 明 辩解 的 现象 。 三 个 结 点 表示 电池 的 状态 (B) 、 油 箱 的 状态 
(F) 以 及 油 量 计 读 数 的 状态 (G) 。 详 细 说 明 见 正文 。 


花 一 些 时 间 进一步 理解 图 8.20 给 出 的 图 的 不 寻常 的 行为 是 很 有 意义 的 。 考 虑 一 个 特定 的 实 
例 ， 即 这 个 图 对 应 于 下 面 的 问题 : 问题 中 有 三 个 二 值 随机 变量 ， 这 些 变量 与 汽车 的 燃料 系统 相 
关 ， 如 图 8.21 所 示 。 变 量 刀 表示 电池 的 状态 是 充电 过 (B = 1) 还 是 没 充电 (B = 0) ,变量 f 表 
示 油 箱 是 满 的 (fF = 1) 还 是 空 的 (fF = 0) ， 变 量 G 表 示 电 子 油 量 测量 计 给 出 的 读数 是 满 的 

(G = 1) 还 是 空 的 (G = 0) 。 电 池 要 么 充电 过 ， 要 么 没 充电 。 与 此 独立 ， 油 箱 要 么 是 满 的 ， 
要 么 是 空 的 。 二 者 的 先 验 概率 为 























p(B=1)=0.9 
p(F =1)=0.9 
给 定 油箱 和 电池 的 状态 ， 油 量 计 给 出 “ 满 的 ”读数 的 概率 为 
(G=1|B=1,F=1)=0.8 
(G=1|B=1,F=0)=0.2 
p(G=1|B=0,F=1)=0.2 
p(G=1|B=0,F=0)=0.1 
所 以 这 是 一 个 相当 不 可 靠 的 油 量 计 ! 所 有 剩 下 的 概率 根据 加 和 等 于 1 的 要 求 来 确定 ， 因 此 我 们 得 
到 了 一 个 完整 的 概率 模型 。 
在 我 们 观测 到 任何 数据 之 前 ， 油 箱 为 空 的 先 验 概率 为 p( 忆 = 0) = 0.1。 现 在 假设 我 们 观察 油 
量 计 ， 发 现 读数 为 “ 空 的 ， 即 G = 0， 对 应 于 图 8.21 的 中 间 的 图 。 我 们 可 以 使 用 贝 叶 斯 定理 计算 
油箱 为 空 的 后 验 概 率 。 首 先 ， 我 们 计算 贝 叶 斯 定理 的 分 母 ， 结 果 为 


pz(G=0= > >》 pr(G=0|B,F)p(B)p(F)=0.315 (8.30) 
Be{0,1} Fe{0,1} 
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类 似 地 ， 我 们 计算 
plG=0|F=0W= > WO=0|Br=0%B)=081 (8.31) 
Be{0,1} 
使 用 这 些 结果 ， 我 们 有 
加 _, p(G=0|F=0p(F=0) 
p(F=0|G=0)= CE 


从 而 p( 了 ==0|1G=0)>p(F = 0)。 因 此 观测 到 油 量 计 的 读数 为 空 使 得 油箱 确实 为 空 的 概率 增 
加 ， 这 与 我 们 的 直觉 相符 。 接 下 来 假设 我 们 也 检查 了 电池 的 状态 ， 发 现 它 没 充电 ， 即 B = 0。 

我 们 现在 观测 到 了 油 量 计 的 状态 和 电池 的 状态 ， 如 图 8.21 的 右 侧 图 所 示 。 给 定 油 量 计 的 观测 以 及 
电池 状态 的 观测 ， 油 箱 为 空 的 后 验 概率 为 

p(G=0|1B=0,F=0)p(F =0) 
reto1} Pp(G = 0|B=0,F)p(F,) 


其 中 先 验 概率 p(B = 0) 在 分 子 和 分 母 之 间 消 去 了 。 因 此 ， 由 于 电池 状态 的 观测 结果 ， 油 箱 为 空 
的 概率 减 小 了 〈 从 0.257 到 0.111) 。 这 与 我 们 的 直觉 相符 ， 即 发 现 电池 没 充 电 辩解 ”(explain 
away) 了 油 量 计 的 读数 为 空 的 。 我 们 看 到 ， 由 于 观测 到 了 油 量 计 的 读数 ， 油 箱 的 状态 和 电 
池 的 状态 确实 变 得 不 独立 了 。 事 实 上 ， 如 果 我 们 没有 直接 观测 到 油 量 计 的 读数 ， 而 是 观测 
到 了 G 的 后 继 ， 那 么 情况 仍然 相同 。 注 意 ， 概 率 p( = 0|G = 0,B=0) 守 0.111 大 于 先 验 概 
率 p( 二 0) = 0.1， 因 为 观测 到 油 量 计 读 数 为 零 仍 然 给 油箱 为 空 提 供 了 一 定 的 证 据 。 


0.257 (8.32) 














之 0.111 (8.33) 








p(F=0|G=0,B=0) 
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GC 
图 8.22: d- 划 分 概念 的 说 明 。 详 细 解 释 见 正文 。 
KH 





图 8.23: (@) 对 应 于 推断 观测 z1,.….,zN 上 的 一 元 高 斯 分 布 的 均值 的 问题 的 有 向 图 。(b) 同 样 的 图 ， 使 用 板 
的 记号 表示 。 


8.2.2 d- 划 分 


我 们 现在 给 出 有 向 图 4- 划 分 性 质 的 一 个 一 般 的 叙述 (Pearl, 1988) 。 考 虑 一 个 一 般 的 有 向 
图 ， 其 中 4, B,C 是 任意 无 交集 的 结 点 集合 (它们 的 并 集 可 能 比 图 中 结 点 的 完整 集合 要 小 ) 。 我 
们 希望 弄 清楚 ， 一 个 有 疝 无 环 图 是 否 暗 示 了 一 个 特定 的 条 件 依 赖 表述 4 4B|C。 为 了 解决 这 个 
问题 ， 我 们 考虑 从 A 中 任意 结 点 到 B 中 任意 结 点 的 所 有 可 能 的 路 径 。 我 们 说 这 样 的 路 径 被 * 阻 
隔 ” ， 如 果 它 包含 一 个 结 点 满足 下 面 两 个 性 质 中 的 任何 一 个 。 


。 路 径 上 的 箭头 以 头 到 尾 或 者 尾 到 尾 的 方式 交汇 于 这 个 结 点 ， 且 这 个 结 点 在 集合 C 中 。 
。 第 头 以 头 到 头 的 方式 交汇 于 这 个 结 点 ， 且 这 个 结 点 和 它 的 所 有 后 继 都 不 在 集合 C 中 。 


如 果 所 有 的 路 径 都 被 阻隔 ， 那 么 我 们 说 C 把 4 从 妃 中 d- 划 分 开 ， 且 图 中 所 有 变量 上 的 联合 概率 
分 布 将 会 满足 4 业已 | C。 

图 8.22 说 明了 d- 划 分 的 概念 。 在 图 由 中 ， 从 ac 到 1 的 路 径 没有 被 结 点 7 阻隔 ， 因 为 对 于 这 个 路 
径 来 说 ， 它 是 一 个 尾 到 尾 结 点 ， 并 且 没 有 被 观测 到 。 这 条 路 径 也 没有 被 结 点 e 阻 隔 ， 因 为 虽然 后 
者 是 一 个 头 到 头 的 结 点 ， 但 是 它 有 一 个 后 继 c 在 条 件 集合 中 。 因 此 条 件 独立 关系 a 5 | c 在 这 个 
图 中 不 成 立 。 在 图 (了 b) 中 ， 从 a 到 5b 的 路 径 被 结 点 f 阻 隔 ， 因 为 它 是 一 个 尾 到 尾 的 结 点 ， 并 且 被 观 
测 到 ， 因 此 使 用 这 幅 图 进行 分 解 的 任何 概率 分 布 都 满足 条 件 独立 性 质 a 4b | f。 注 意 ， 这 个 路 径 
也 被 结 点 e 阻 隔 ， 因 为 e 是 一 个 头 到 头 的 结 点 ， 并 且 它 和 它 的 后 继 都 没 在 条 件 集合 中 。 

对 于 d- 划 分 的 目的 来 说 ， 图 8.5 中 用 小 实心 圆 表示 的 参数 (例如 a 和 o?) 与 观测 结 点 的 行为 相 
同 。 然 而 ， 这 些 结 点 没有 边缘 概率 分 布 。 结 果 ， 参 数 结 点 本 身 没 有 父 结 点 ， 因 此 所 有 通过 这 些 
结 点 的 路 径 总 是 尾 到 尾 的 ， 因 此 是 阻隔 的 。 从 而 它们 在 4 划分 中 没有 作用 。 

1.2.4 节 介绍 的 独立 同 分 布 数据 的 概念 提供 了 条 件 独立 和 d- 划 分 的 另 一 个 例子 。 考 虑 寻找 一 元 
高 斯 分 布 的 均值 的 后 验 概率 分 布 的 问题 。 这 可 以 表示 为 图 8.23 的 有 向 图 的 形式 ， 其 中 联合 概率 分 
布 由 先 验 概率 分 布 p(U 和 一 组 条 件 概率 分 布 p(zn | 4) 表 示 ， 其 中 nn = 1,.…., NN。 在 实际 应 用 中 ， 
我 们 观测 到 = {fzl……zN}， 我 们 的 目标 是 推 朵 人。 我 们 现在 假设 我 们 以 /为 条 件 ， 考 虑 观 




















测 的 联合 概率 分 布 。 使 用 d- 划 分 ,我们 注意 到 从 任意 结 点 zi 到 其 他 的 结 点 zjy; 有 一 条 唯一 的 
路 径 ， 这 个 路 径 关于 观测 结 点 是 尾 到 尾 的 。 每 条 这 样 的 路 径 都 是 阻隔 的 ， 因 此 给 定 ， 观 
测 D = {z1,.….,ZN} 是 独立 的 ， 即 
N 
p(D|p)= | ?Cn lt) (8.34) 
多 三 1 
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图 8.24: 用 于 分 类 的 "朴素 贝 叶 斯 "模型 的 图 表示 。 以 类 别 标签 z 为 条 件 ， 观 测 向 量 z = (z1,.…,zD) 的 元 
素 假 设 是 独立 的 。 


然而 ， 如 果 我 们 对 /积分 ， 通 常 观测 不 再 独立 ， 即 


oo N 
nD)= 人 D1 pn) an# ole,) (8.35) 


n=1 


这 里 /是 一 个 潜在 变量 ， 因 为 它 的 值 未 被 观测 。 

男 一 个 表示 独立 同 分 布 数据 模型 的 例子 如 图 8.7 所 示 ， 它 对 应 于 贝 叶 斯 多 项 式 回 归 。 这 里 ， 
随机 结 点 对 应 于 {tn},w 和 t。 我 们 看 到 ，w 的 结 点 关于 从 1 到 任意 结 点 k 的 路 径 是 尾 对 尾 的 ， 因 
此 我 们 有 下 面 的 条 件 独立 性 质 机 

titn|w (8.30) 


因此 ， 以 多 项 式 系数 ww 为 条 件 ，t 的 预测 分 布 独立 于 训练 数据 { 厂 ,.…., tv}。 于 是 我 们 可 以 首先 使 
用 训练 数据 确定 系数 ww 的 后 验 概率 分 布 ， 然 后 我 们 就 可 以 丢弃 训练 数据 ， 使 用 w 的 后 验 概率 分 
布 对 新 输入 观测 2 做 出 t 的 预测 。 

一 种 被 称 为 朴素 贝 叶 斯 (naive Bayes) 模型 的 分 类 方法 可 以 产生 一 种 相关 的 图 结构 ， 其 中 
我 们 使 用 条 件 独立 性 假设 来 简化 模型 的 结构 。 假 设 观测 变量 由 D 维 向 量 x = (x1,.….,7xD) 组 
成 ,我们 希望 将 z 的 观测 值 分 配 到 天 个 类 别 中 的 一 个 。 使 用 1-of K 表示 方式 ， 我 们 可 以 使 用 一 
个 天 维 二 值 向 量 z 表 示 这 些 类 别 。 然 后 我 们 可 以 这 样 定义 一 个 生成 式 模型 : 引入 类 别 标 签 上 的 多 
项 式 先 验 概率 分 布 p(z | 4)， 其 中 的 第 个 元 素 凡 表示 类 别 C 的 先 验 概率 ， 再 引入 观测 向 量 z 的 
条 件 概 率 分 布 p(x | z)。 朴 素 贝 叶 斯 模型 的 关键 假设 是 ， 以 类 别 z 为 条 件 ， 输 入 变量 zl1, .…,ZP 的 
分 布 是 独立 的 。 这 个 模型 的 图 表示 如 图 8.24 所 示 。 我 们 看 到 z 的 观测 阻隔 了 从 zi 到 zj 的 路 径 ， 其 
中 7 关 i， 因 为 这 样 的 路 径 在 结 点 z 处 是 尾 到 尾 的 。 因 此 给 定 z 的 条 件 下 ，zi 和 zj; 是 条 件 独 立 的 。 
然而 ， 如 果 我 们 对 z 求 和 或 积分 〈 即 z 不 是 观测 变量 ) ， 那 么 从 zi 到 zj; 的 尾 到 尾 路 径 就 不 再 是 阻 
塞 的 了 。 这 告诉 我 们 ， 通 常 边缘 概率 密度 p(x) 不 可 以 关于 zx 的 元 素 进行 分 解 。 在 1.5 节 中 讨论 将 
不 同 来 源 的 医疗 诊断 数据 整合 到 一 起 的 问题 时 ， 我 们 遇 到 了 朴素 贝 叶 斯 模型 的 一 个 简单 的 例 
子 。 
如 果 给 定 一 个 有 标记 的 训练 集 ， 由 输入 {21,.…,zN} 以 及 它们 的 类 别 标签 组 成 ， 那 么 我 们 可 
以 使 用 最 大 似 然 法 ， 根 据 训 练 数据 调整 朴素 贝 叶 斯 模型 ， 其 中 我 们 假设 数据 是 独立 地 从 模型 中 
抽取 的 。 使 用 每 个 类 别 对 应 的 标记 数据 ， 我 们 可 以 为 每 个 类 别 分 别 调整 一 个 模型 ， 得 到 最 终 
解 。 举 例 来 说 ， 假 设 每 个 类 别 的 概率 密度 分 布 被 选 为 高 斯 分 布 。 在 这 种 情况 下 ， 朴 素 贝 叶 斯 的 
假设 表明 每 个 高 斯 分 布 的 协 方差 矩阵 是 对 角 和 矩阵 ， 且 每 个 类 别 中 常数 密度 的 轮廓 线 是 与 坐标 轴 
对 齐 的 椭 球 。 然 而 ， 边 缘 概 率 密度 由 对 角 高 斯 的 全 加 组 成 ( 权 系 数 由 类 别 先 验 给 出 ) ， 因 此 不 
再 能 够 关于 各 个 分 量 进行 分 解 。 

当 输 入 空间 的 维度 D 很 高 时 ， 在 完整 的 D 维 空间 进行 概率 密度 估计 比较 困难 ， 此 时 朴素 贝 叶 
斯 的 假设 很 有 帮助 。 如 果 输 入 向 量 既 包含 离散 变量 又 包含 连续 变量 ， 那 么 朴素 贝 叶 斯 的 假设 也 
很 有 意义 ， 因 为 每 个 变量 都 可 以 分 别 使 用 合适 的 模型 进行 表示 ， 例 如 用 伯 努 利 分 布 表示 二 值 观 
测 ， 或 者 用 高 斯 分 布 表示 实 值 变量 。 这 个 模型 中 的 条 件 独 立 性 假设 显然 过 于 强烈 ， 可 能 会 导致 
对 类 条 件 概 率 密 度 的 表示 相当 差 。 尽 管 这 样 ， 即 使 这 个 假设 无 法 精确 满足 ， 但 是 模型 仍然 可 能 
给 出 较 好 的 分 类 效果 ， 因 为 决策 边界 对 于 类 条 件 概率 的 细节 不 敏感 ， 如 图 1.27 所 示 。 

我 们 已 经 看 到 一 个 特定 的 有 向 图 表示 将 联合 概率 分 布 分 解 为 条 件 概率 分 布 乘积 形式 的 一 个 具 
体 的 分 解 方式 。 图 也 表示 一 组 条 件 独立 的 性 质 ， 这 些 性 质 通 过 d- 划 分 的 方式 得 到 ， 并 且 d- 划 分 定 
理 实际 上 是 一 个 等 价 于 这 两 个 性 质 的 表示 。 为 了 让 这 一 点 更 明显 ， 将 有 了 向 图 想象 成 滤波 器 是 很 
有 帮助 的 。 假 设 我 们 考虑 z 上 的 一 个 特定 的 联合 概率 分 布 p(z)， 其 中 z 对 应 于 图 中 的 〈 未 观测 ) 
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图 8.25: 我 们 可 以 将 图 模型 (在 这 幅 图 中 是 有 向 图 ) 看 成 滤波 器 。 当 且 仅 当 概率 分 布 pz(z) 满 足 有 向 分 解 性 
质 (8.5) 时 ，p(z) 才 可 以 通过 滤波 器 。 通 过 滤波 器 的 所 有 可 能 的 概率 分 布 p(z) 被 记 作 PDF。 我 们 也 可 
以 根据 概率 分 布 是 否 满足 由 图 的 d- 划 分 性 质 表 示 的 所 有 的 条 件 独 立 性 质 来 使 用 图 对 概率 分 布 进行 过 
滤 。d- 划 分 定理 表明 ， 这 两 种 滤波 方式 得 到 的 概率 分 布 集合 D 厂 是 相同 的 。 


结 点 。 一 个 概率 分 布 能 够 通过 滤波 器 当 且 仅 当 它 能 够 用 与 图 对 应 的 公式 (8.5) 给 出 的 分 解 方式 
进行 分 解 。 如 果 我 们 将 变量 z 的 集合 上 的 所 有 可 能 的 概率 分 布 z(z) 输 入 到 滤波 器 中 ， 那 么 通过 滤 
波 右 的 概率 分 布 的 子 集 被 记 作 D 三 ， 表 示 有 向 分 解 (directed factorization) ， 如 图 8.25 所 示 。 我 
们 还 可 以 将 图 用 作 另 一 种 滤波 器 ， 首 先 将 d- 划 分 准则 应 用 到 图 中 ， 列 出 所 有 得 到 的 条 件 独 立 性 
质 ， 然 后 只 有 当 一 个 概率 分 布 满足 所 有 这 些 性 质 时 才 人 允许 通过 。 如 果 我 们 将 所 有 可 能 的 概率 分 
布 输入 到 这 一 类 滤波 器 中 ,那么 4- 划 分 定理 告诉 我 们 ， 人 允许 通过 的 概率 分 布 的 集合 就 是 PDF。 

应 该 强调 的 是 ， 从 d- 划 分 中 得 到 的 条 件 独立 性 质 适用 于 任何 由 那个 特定 的 有 向 图 描述 的 概率 
模型 。 例 如 ， 无 论 变量 是 离散 的 还 是 连续 的 还 是 二 者 的 组 合 ， 这 个 性 质 都 成 立 。 与 之 前 一 样 ， 
我 们 看 到 特定 的 图 描述 了 一 大 类 概率 分 布 。 

在 一 种 极限 的 情况 下 ， 我们 有 一 个 全 连接 的 图 ， 它 不 表示 任何 的 条 件 独立 性 质 ， 可 以 表示 给 
定 变量 上 的 任何 可 能 的 联合 概率 分 布 。 集 合 D 将 包含 所 有 可 能 的 概率 分 布 p(z)。 在 男 一 种 情况 
下 ， 我 们 有 一 个 完全 非 连接 的 图 ， 即 一 张 不 存在 任何 链接 的 图 。 这 对 应 的 联合 概率 分 布 可 以 分 
解 为 图 结 点 组 成 的 变量 上 的 边缘 概率 分 布 的 乘积 。 

注意 ， 对 于 任意 给 定 的 图 ， 分 布 的 集合 PF 中 的 概率 分 布 还 会 具有 图 中 未 描述 的 独立 性 质 。 
例如 ， 一 个 完全 分 解 的 概率 分 布 总 会 通过 由 对 应 变量 组 成 的 任意 图 结构 表示 的 滤波 器 。 

最 后 ， 我 们 通过 研究 马尔 科 夫 毯 (Markov blanket) 或 者 马尔 科 夫 边界 (Markov boundary) 
的 概念 来 结束 我 们 关于 条 件 独 立 性 的 讨论 。 考 虑 一 个 联合 概率 分 布 p(zl,.…,zpD)， 它 由 一 个 具 
且 个 结 点 的 有 向 图 表示 。 考 虑 变量 zi 对 应 的 结 点 上 的 条 件 概率 分 布 ， 其 中 条 件 为 所 有 剩余 的 
变量 zjyi。 使 用 分 解 性 质 (8.5) ， 我 们 可 以 将 条 件 概 率 分 布 表示 为 下 面 的 形式 








_ p(z1,..., TD) 

f p(x1, 人 , TD) dz; 
lI p(xx | pax) 

f Tp(xx | pak) dz; 


对 于 离散 变量 ， 上 式 中 的 积分 需要 替换 为 求 和 式 。 我 们 现在 观察 到 任何 与 £i; 没 有 通 数 依赖 
关系 的 因子 都 可 以 提 到 zi 的 积分 外 面 ， 从 而 在 分 子 和 分 母 之 间 消 去 。 唯 一 剩余 的 因子 是 
结 点 zi; 本身 的 条 件 概 率 分 布 plzi | pa;)， 以 及 满足 下 面 性 质 的 结 点 zx 的 条 件 概率 分 布 : 结 
点 Zi 在 p(xk | pax) 的 条 件 集 合 中 ， 即 x2; 是 x 的 父 结 点 。 条 件 概率 分 布 p(zi | pai) 依 赖 于 结 点 zi 的 
父 结 点 ， 而 条 件 概率 分 布 p(xx | pax) 依 赖 于 zi 的 子 结 点 以 及 同 父 结 点 (co-parents) ， 即 那些 对 
应 于 zk 〈 而 不 是 zi) 的 父 结 点 的 变量 。 由 父 结 点 、 子 结 点 、 同 父 结 点 组 成 的 结 点 集合 被 称 为 马 
尔 科 夫 毯 ， 如 图 8.26 所 示 。 我 们 可 以 将 结 点 2; 的 马尔 科 夫 毯 想 象 成 将 z; 与 图 的 剩余 部 分 隔离 开 的 
最 小 结 点 集合 。 注 意 ， 只 包含 w; 的 父 结 点 和 子 结 点 是 不 够 的 ， 因 为 之 前 的 例子 表明 ， 子 结 点 的 
观测 不 会 阻隔 某 个 结 点 到 同 父 结 点 的 路 径 。 因 此 我 们 必须 也 观测 同 父 结 点 。 





DP(Ci | TL {ji}) 











8.3 马尔 科 夫 随机 场 


我 们 已 经 看 到 有 向 图 模型 表示 将 一 组 变量 上 的 联合 概率 分 布 分 解 为 局 部 条 件 概率 分 布 的 乘积 
的 一 种 分 解 方式 。 有 向 图 模型 也 定义 了 一 组 条 件 独 立 性 质 ， 根 据 图 进行 分 解 的 任何 概率 分 布 都 
必须 满足 这 些 条 件 独立 性 质 。 我 们 现在 考虑 图 模型 的 第 二 大 类 ， 使 用 无 向 图 描述 的 图 模型 。 与 
之 前 一 样 ， 它 表示 一 个 分 解 方式 ， 也 表示 一 组 条 件 独 立 关 系 。 
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图 8.26: 结 点 z; 的 马尔 科 夫 毯 由 父 结 点 、 子 结 点 、 同 父 结 点 组 成 的 集合 构成 。 它 的 性 质 为 : 以 图 中 所 有 剩 
余 结 点 为 条 件 ，z; 的 条 件 概率 分 布 值 依赖 于 马尔 科 夫 毯 中 的 变量 。 





图 8.27: 无 向 图 的 一 个 例子 ， 其 中 从 集合 4 中 的 任意 结 点 到 集合 B 中 的 任意 结 点 的 每 天 路 径 都 通过 集 
合 C 中 的 至 少 一 个 结 点 。 结 果 ， 对 于 所 有 由 这 个 图 描述 的 任意 概率 分 布 ， 以 C 为 条 件 ，4 与 都 条 件 独 


Wo 


一 个 马尔 科 夫 随机 场 (Markov random field) ， 也 被 称 为 马尔 科 夫 网 络 (Markov network) 
或 者 无 向 图 模型 (undirected graphical model) (Kindermann and Snell, 1980) ,包含 一 组 结 点 ， 
每 个 结 点 都 对 应 着 一 个 变量 或 一 组 变量 。 链 接 是 无 向 的 ， 即 不 含有 箭头 。 在 无 向 图 的 情形 中 ， 
首先 讨论 条 件 独立 性 质 是 比较 方便 的 。 


8.3.1 条 件 独立 性 质 


在 有 向 图 的 情形 下 ， 我 们 看 到 可 以 通过 使 用 被 称 为 4- 划 分 的 图 检测 方法 判断 一 个 特定 的 条 件 
独立 性 质 是 否 成 立 。 这 涉及 到 判断 链接 两 个 结 点 集合 的 路 径 是 否 被 阻隔 。 然 而 ， 由 于 头 到 头 
结 点 的 存在 ， 阻 隔 的 定义 多 少 有 些微 妙 。 我 们 可 能 会 问 ， 是 否 可 以 定义 另 一 种 概率 分 布 的 图 语 
义 表 示 ， 使 得 条 件 独立 性 由 单一 的 图 划分 确定 。 这 种 情形 确实 存在 ， 对 应 于 无 向 图 模型 。 通 过 
移 除 图 中 链接 的 方向 性 ， 父 结 点 和 子 结 点 的 非 对 称 性 也 被 移 除了 ， 因 此 头 到 头 结 点 的 微妙 性 也 


就 不 再 存在 了 。 
假设 在 一 个 无 向 图 中 ， 我 们 有 三 个 结 点 集合 ， 记 作 4, B,C。 我 们 考虑 条 件 独立 性 质 
ALBI|IC (8.37) 
为 了 判定 由 图 定义 的 概率 分 布 是 否 满足 这 个 性 质 ， 我 们 考虑 连接 集合 4 的 结 点 和 集合 巨 的 结 点 的 


所 有 可 能 路 径 。 如 果 所 有 这 些 路 径 都 通过 了 集合 C 中 的 一 个 或 多 个 结 点 ， 那 么 所 有 这 样 的 路 径 
都 被 阻隔 ， 因 此 条 件 独 立 性 质 成 立 。 然 而 ， 如 果 存 在 至 少 一 条 未 被 阻隔 的 路 径 ， 那 么 性 质 条 
件 独 立 的 性 质 未 必 成 立 ， 或 者 更 精确 地 说 ， 存 在 至 少 某 些 对 应 于 图 的 概率 分 布 不 满足 条 件 独立 
性 质 。 图 8.27 给 出 了 一 个 例子 。 注 意 ， 这 与 4 划分 的 准则 完全 相同 ， 唯 一 的 差别 在 于 没有 头 到 头 
的 现象 。 因 此 ， 无 向 图 的 条 件 独 立 性 的 检测 比 有 向 图 简单 。 

另 一 种 条 件 独立 性 的 检测 的 方法 是 假设 从 图 中 把 集合 C 中 的 结 点 以 及 与 这 些 结 点 相连 的 链接 
全 部 删除 。 然 后 ， 我 们 考 罕 是 否 存在 一 条 从 A 中 任意 结 点 到 B 中 任意 结 点 的 路 径 。 如 果 没 有 这 样 
的 路 径 ， 那 么 条 件 独立 的 性 质 一 定 成 立 。 

无 向 图 的 马尔 科 夫 毯 的 形式 相当 简单 ， 因 为 结 点 只 条 件 依赖 于 相 邻 结 点 ， 而 条 件 独立 于 任何 
其 他 的 结 点 ， 如 图 8.28 所 示 。 
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图 8.28: 对 于 一 个 无 向 图 ， 结 点 必 的 马尔 科 夫 毯 由 相 邻 结 点 的 集合 组 成 。 它 的 性 质 为 : 以 图 中 所 有 剩余 变 
量 为 条 件 ， 汪 的 条 件 概率 分 布 只 依赖 于 马尔 科 夫 毯 中 的 变量 。 








图 8.29: 4 结 点 无 向 图 。 图 中 画 出 了 一 个 团 块 〈 用 绿色 圈 出 ) 和 一 个 最 大 团 块 (用 蓝 色 圈 出 ) 。 


8.3.2 分 解 性 质 


我 们 现在 寻找 无 向 图 的 一 个 分 解 规则 ， 对 应 于 上 述 条 件 独立 性 检测 。 与 之 前 一 样 ， 这 涉及 到 
将 联合 概率 分 布 p(z) 表 示 为 在 图 的 局 部 范围 内 的 变量 集合 上 定义 的 函数 的 乘积 。 于 是 ， 我 们 需 
要 给 出 这 种 情形 下 ， 局 部 性 的 一 个 合适 定义 。 

如 果 我 们 考虑 两 个 结 点 2 和 2 ， 它 们 不 存在 链接 ， 那 么 给 定 图 中 的 所 有 其 他 结 点 ， 这 两 个 结 
点 一 定 是 条 件 独立 的 。 这 是 因为 两 个 结 点 之 间 没 有 直接 的 路 径 ， 并 且 所 有 其 他 的 路 径 都 通过 了 
观测 的 结 点 ， 因 此 这 些 路 径 都 是 被 阻隔 的 。 这 个 条 件 独立 性 可 以 表示 为 


PTis TI | Bj}) = PTi | Dj PTI | Bi}) (8.38) 


其 中 z\fi,j} 表 示 所 有 变量 zx 去 掉 x; 和 zx; 的 集合 。 于 是 ， 联 合 概率 分 布 的 分 解 一 定 要 让 3 和 zj 不 出 
现在 同一 个 因子 中 ， 从 而 让 属于 这 个 图 的 所 有 可 能 的 概率 分 布 都 满足 条 件 独立 性 质 。 


这 将 我 们 引 向 了 一 个 图 形 的 概念 ， 团 块 (clique) 。 它 被 定义 为 图 中 结 点 的 一 个 子 集 ， 使 得 
在 这 个 子 集中 的 每 对 结 点 之 间 都 存在 链接 。 换 句 话 说 ， 团 块 中 的 结 点 集合 是 全 连接 的 。 此 外 ， 





一 个 最 大 团 块 (maximal clique) 是 具有 下 面 性 质 的 团 块 : 不 可 能 将 图 中 的 任何 一 个 其 他 的 结 点 
包含 到 这 个 团 块 中 而 不 破坏 团 块 的 性 质 。 图 8.29 说 明了 四 个 变量 的 无 向 图 中 的 这 些 概念 。 这 个 图 
中 有 五 个 具有 两 个 结 点 的 团 块 ， 即 {x1, zx2}, {x2, 23}, {23,T4}, {24,X2} 和 {x1,7X3}， 还 有 两 个 最 
大 团 块 {x1, x2,z3} 和 {22, 7z3, Tz4}。 集合 {zl, zz, 73,Z4} 不 是 一 个 团 块 ， 因为 在 zi 和 7z4 没 有 链接 。 

于 是 ， 我 们 可 以 将 联合 概率 分 布 分 解 的 因子 定义 为 团 块 中 变量 的 函数 。 事 实 上， 我 们 可 
以 考虑 最 大 团 块 的 函数 而 不 失 一 般 性 ， 因 为 其 他 团 块 一 定 是 最 大 团 块 的 子 集 。 因 此 ， 如 
果 {2z1 z2,z3} 是 一 个 最 大 团 块 ， 并 我 们 在 这 个 团 块 上 定义 了 任意 一 个 函数 ， 那 么 定义 在 这 些 变 
量 的 一 个 子 集 上 的 其 他 因子 都 是 宛 余 的 。 

让 我 们 将 团 块 记 作 C， 将 团 块 中 的 变量 的 集合 记 作 zc。 这 样 ， 联 合 概率 分 布 可 以 写成 图 的 
最 大 团 块 的 势 函 数 (potential function) wc(zc) 的 乘积 的 形式 








p(z) = TI[wcteo) (8.39) 
C 
这 里 ，2 有 时 被 称 为 划分 函数 (partition function) ， 是 一 个 归 一 化 常数 ， 等 于 
Z=> 11we(zo) (8.40) 
T CC 
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它 确保 了 公式 (8.39) 给 出 的 概率 分 布 pz(z) 被 正确 地 归 一 化 。 通 过 只 考虑 满足 mc(zc) > 0 的 势 
函数 ， 我 们 确保 了 p(xz) > 0。 在 公式 (8.40) 中 ， 我 们 假设 z 由 离散 变量 组 成 ， 但 是 这 个 框架 也 
同样 适用 于 连续 变量 ， 或 者 两 者 结合 的 情形 。 此 时 ， 求 和 式 被 蔡 换 成 恰当 的 求 和 与 积分 的 组 
注意 ， 我 们 不 把 势 函 数 的 选择 限制 为 具有 具体 的 概率 含义 〈 例 如 边缘 概率 分 布 或 者 条 件 概率 
分 布 ) 的 函数 。 这 与 有 向 图 的 情形 相反 。 在 有 向 图 的 情形 中 ， 每 个 因子 表示 对 应 变量 以 它 的 父 
结 点 为 条 件 的 条 件 概率 人 分布。 然而， 在 特殊 情况 下 ， 例 如 无 向 图 是 通过 有 向 图 构建 的 情况 ， 势 
函数 可 能 确实 有 这 样 的 意义 ， 正 如 我 们 将 要 看 到 的 那样 。 

势 函数 wc(zc) 的 这 一 通用 性 产生 的 一 个 结果 是 它们 的 乘积 通常 没有 被 正确 地 归 一 化 。 于 
是 ， 我们 必须 引入 一 个 显 式 的 归 一 化 因子 ， 由 公式 (8.40) 给 出 。 回 忆 一 下 ， 对 于 有 向 图 的 情 
和 
归 一 化 。 

归 一 化 常数 的 存在 是 无 向 图 的 一 个 主要 的 缺点 。 如 果 我 们 的 模型 中 有 M 个 离散 结 点 ， 每 个 
结 点 有 KK 个 状态 ， 那 么 归 一 化 项 的 计算 涉及 到 对 KY 个 状态 求 和 和， 因此 (在 最 坏 的 情况 下 ) ， 
计算 量 是 模型 大 小 的 指数 形式 。 对 于 参数 学 习 来 说 ， 划 分 函数 是 必要 的 ， 因 为 划分 函数 是 控制 
势 函数 Vwc(zc) 的 任意 参数 的 函数 。 但 是 ， 对 于 局 部 条 件 概 率 分 布 的 计算 ， 划 分 函数 是 不 需要 
的 ， 因 为 条 件 概率 是 两 个 边缘 概率 的 比值 ， 当 计算 这 个 比值 时 ， 划 分 函数 在 分 子 和 分 母 之 间 被 
消去 了 。 类 似 地 ， 对 于 计算 局 部 边缘 概率 ， 我 们 可 以 计算 未 归 一 化 的 联合 概率 分 布 ， 然 后 在 计 
算 的 最 后 阶段 显 式 地 归 一 化 边缘 概率 。 假 设 边 缘 概率 只 涉及 到 少量 的 变量 ， 那 么 归 一 化 系数 的 
计算 是 可 行 的 。 

目前 为 止 ， 我 们 基于 简单 的 图 划分 ， 讨 论 了 条 件 独 立 性 的 概念 ， 并 且 我 们 提出 了 对 联合 概率 
分 布 的 分 解 ， 来 尝试 对 应 条 件 独 立 的 图 结构 。 然 而 ， 我 们 并 没有 将 条 件 独 立 性 和 无 向 图 的 分 
解 形 式 化 地 联系 起 来 。 为 了 形式 化 地 描述 ， 我 们 需要 把 注意 力 限制 于 那些 严格 为 正 的 势 函 
数 Vwc(zc)， 即 对 于 任意 的 zc 的 选择 都 永远 不 等 于 零 也 不 取 负 值 的 势 函数 。 给 定 这 个 限制 ， 我 
们 可 以 给 出 分 解 和 条 件 独立 之 间 的 精确 关系 。 

为 了 给 出 精确 的 关系 ， 我 们 再 次 回 到 作为 滤波 器 的 图 模型 的 概念 中 ， 对 应 于 图 8.25。 考 虑 定 
义 在 固定 变量 集合 上 的 所 有 可 能 的 概率 分 布 ， 其 中 这 些 变量 对 应 于 一 个 具体 的 无 向 图 的 节点 。 
我 们 可 以 将 UI 定义 为 满足 下 面条 件 的 概率 分 布 的 集合 : 从 使 用 图 划分 的 方法 得 到 的 图 中 可 以 读 
出 条 件 独立 性 质 ， 这 个 概率 分 布 应 该 与 这 些 条 件 独 立 性 质 相 容 。 类 似 地 ， 我 们 可 以 将 UF 定 
义 为 满足 下 面条 件 的 概率 分 布 的 集合 : 可 以 表示 为 关于 图 中 最 大 团 块 的 分 解 的 形式 的 概率 
分 布 ， 其 中 分 解 方式 由 公式 (8.39) 给 出 。Hammersley-Clifford 定 理 (Clifford, 1990) 表明 ， 集 
合 L4Z 和 L.F 是 完全 相同 的 。 

由 于 我 们 的 势 函数 被 限制 为 严格 大 于 零 ， 因 此 将 势 函 数 表示 为 指数 的 形式 更 方便 ， 即 


wel(zo) = exb{ 一 五 (zc)} (8.41) 


其 中 (zc) 被 称 为 能 量 函 数 (energy function) ， 指 数 表示 被 称 为 玻 尔 兹 曼 分 布 (Boltzmann 
distribution) 。 联 合 概率 分 布 被 定义 为 势 函数 的 乘积 ， 因 此 总 的 能 量 可 以 通过 将 每 个 最 大 团 块 的 
能 量 相 加 的 方法 得 到 。 

与 有 向 图 的 联合 分 布 的 因子 不 同 ， 无 向 图 中 的 势 函数 没有 一 个 具体 的 概率 意义 。 虽 然 这 使 得 
选择 势 函数 具有 更 大 的 灵活 性 ， 因 为 没有 归 一 化 的 限制 ， 但 是 这 确实 产生 了 一 个 问题 ， 即 对 于 
一 个 具体 的 应 用 来 说 ， 如 何 选择 势 函 数 。 可 以 这 样 做 : 将 势 函 数 看 成 一 种 度量 ， 它 表示 了 局 部 
变量 的 哪 种 配置 优 于 其 他 的 配置 。 具 有 相对 高 概率 的 全 局 配置 对 于 各 个 团 块 的 势 函数 的 影响 进 
行 了 很 好 的 平衡 。 我 们 现在 通过 一 个 具体 的 例子 来 说 明 无 向 图 的 用 处 。 














8.3.3 例子 : 图 像 去 品 


我 们 可 以 使 用 二 值 图 像 中 图 像 去 噪 的 例子 来 说 明 无 向 图 的 应 用 (Besag, 1974; Geman and 
Geman, 1984; Besag, 1986) 。 虽 然 这 是 一 个 非常 简单 的 例子 ， 但 是 它 可 以 代表 许多 更 复杂 的 
应 用 。 我 们 令 观 测 的 噪声 图 像 通过 一 个 二 值 像素 值 w s {一 1, 十 1} 组 成 的 数组 来 描述 ， 其 中 下 
标 i = 1,... ,DD 覆盖 了 所 有 的 像素 。 我 们 假设 图 像 通过 下 面 的 方式 获得 : 取 一 张 未 知 的 无 噪声 图 
像 ， 这 幅 图 像 由 二 值 像素 值 x; € {一 1, 二 1} 描述 ， 然 后 以 一 个 较 小 的 概率 随机 翻转 像素 值 的 符 
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图 8.30: 使 用 马尔 科 夫 随机 场 进 行 图 像 去 噪 的 例子 。 上 面 一 行 中 ， 左 侧 是 原始 的 二 值 图 像 ， 右 侧 是 随机 改 
变 10% 的 像素 后 得 到 的 带 有 噪声 的 图 像 。 下 面 一 行 中 ， 左 图 是 使 用 迭代 条 件 模型 〈(ICM) 恢复 的 图 像 ， 
右 图 是 使 用 最 大 割 算 法 得 到 的 图 像 。ICM 产 生 的 图 像 中 ，96% 的 像素 与 原始 图 像 相 符 ， 而 最 大 割 算法 产 
生 的 图 像 中 ， 这 个 比例 为 99% 。 


号 。 图 8.30 给 出 了 一 个 二 值 图 像 以 及 一 副 噪 声 图 像 ， 其 中 噪声 图 像 中 像素 值 发 生 符号 翻转 的 概率 
为 10%。 给 定 带 有 噪声 的 图 像 ， 我 们 的 目标 是 恢复 原始 的 无 噪声 的 图 像 。 

由 于 噪声 等 级 比较 小 ， 因 此 我 们 知道 wz 和 信之 间 有 着 强烈 的 相关 性 。 我 们 还 知道 图 像 中 相 邻 
像素 zi 和 zx; 的 相关 性 很 强 。 这 种 先 验 知识 可 以 使 用 马尔 科 夫 随机 场 模型 进行 描述 ， 它 的 无 向 图 
如 图 8.31 所 示 。 这 个 图 中 有 两 种 类 型 的 团 块 ， 每 一 种 团 块 包含 两 个 变量 。 形 如 {zi,%i} 的 团 块 有 
一 个 关联 的 能 量 函 数 ， 表 达 了 这 些 变量 之 间 的 相关 性 。 对 于 这 些 团 块 ， 我 们 选择 一 个 非常 简单 
的 能 量 函 数 一 nzxiy;， 其 中 ”是 一 个 正 的 常数 。 这 个 能 量 浮 数 的 效果 是 : 当 zi 和 符号 相同 时 ， 能 
量 函 数 会 给 出 一 个 较 低 的 能 量 ( 即 ， 较 高 的 概率 ) ， 而 当 xi 和 yi 符号 相反 时 ， 能 量 函 数 会 给 出 
一 个 较 高 的 能 量 。 

剩余 的 团 块 由 变量 {zi, zj 组 成 ， 其 中 :和 7 是 相 邻 像素 的 下 标 。 与 之 前 一 样 ， 我 们 希望 当 
两 个 像素 符号 相同 时 能 量 较 低 ， 当 两 个 像素 符号 相反 时 能 量 较 高 ， 因 此 我 们 选择 能 量 函 
数 -Bziz;， 其 中 6 是 一 个 正 的 常数 。 

由 于 势 函 数 是 最 大 团 块 上 的 一 个 任意 的 非 负 的 函数 ， 因 此 我 们 可 以 将 势 函 数 与 团 块 的 子 集 上 
的 任意 非 负 通 数 相 乘 ， 或 者 等 价 地 ， 我 们 可 以 加 上 对 应 的 能 量 。 在 这 个 例子 中 ， 这 使 得 我 们 可 
以 为 无 噪声 图 像 的 每 个 像素 ;加 上 一 个 额外 的 项 nzi。 这 样 的 项 具有 下 面 的 效果 : 将 模型 进行 偏 
置 ， 使 得 模型 倾向 于 选择 一 个 特定 的 符号 ， 而 不 选择 另 一 个 符号 。 

于 是 ， 模 型 的 完整 的 能 量 函 数 的 形式 为 


E(x,y) =hy 2 — BY, 021 一人》 riy (8.42) 
它 定 义 了 z 和 2% 上 的 一 个 联合 概率 分 布 ， 形 式 为 
p(y) = 3 exp{—B(z,)} (8.43) 
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图 8.31: 一 个 无 向 图 模型 ， 表 示 图 像 去 噪 的 马尔 科 夫 随机 场 ， 其 中 zi 是 一 个 二 值 变量 ， 表 示 像 素 i 在 一 个 
未 知 的 无 噪声 的 图 像 中 的 状态 ， 区 表示 在 观测 到 的 噪声 图 像 中 ， 像 素 ;的 对 应 值 。 


2 ZX» TN-1 TN 
01 22 TN-1 TN 


图 8.32: (0 有 向 图 的 例子 。b) 等 价 的 无 向 图 。 


我 们 现在 固定 噪声 图 像 的 像素 给 出 的 观测 值 y 的 元 素 ， 这 个 噪声 图 像 隐 式 地 定义 了 一 个 无 噪 
声 图 像 上 的 条 件 概率 分 布 p(z | y)。 这 是 Ising 模 型 的 一 个 例子 ， 这 个 模型 在 统计 物理 学 中 被 广泛 
研究 。 为 了 恢复 图 像 ， 我 们 希望 找到 一 个 具有 和 较 高 概率 (理想 情况 下 具有 最 高 概率 ) 的 图 像 z。 
为 了 完成 这 件 事 ， 我 们 要 使 用 一 个 简单 的 迭代 方法 ， 叫 做 迭代 条 件 峰 值 (iterated conditional 
modes) ,或 者 称 为 ICM (Kittler and F6glein, 1984) 。 这 种 方法 仅仅 是 坐标 间 的 梯度 上 升 方法 的 
一 个 应 用 。 这 种 方法 的 思想 是 ， 首 先 初始 化 变量 {zi}， 这 个 过 程 中 我 们 只 是 简单 地 令 m = yi 对 
于 所 有 ;都 成 立 。 然 后 ， 我 们 每 次 取 一 个 Zi; 结 点 ， 计 算 两 个 可 能 状态 zj = +1 和 zj = 一 1 的 总 能 
量 ,保持 其 他 所 有 结 点 变量 固定 ， 将 x; 设置 为 能 量 较 低 的 状态 。 如 果 zj 不 变 ， 则 概率 不 变 ， 否 
则 概率 就 会 增 大 。 由 于 只 有 一 个 变量 发 生 改 变 ， 因 此 这 是 一 个 可 以 高 效 进行 的 简单 局 部 计算 。 
然后 ， 我 们 对 其 他 的 结 点 重复 更 新 过 程 ， 以 此 类 推 . 知道 满足 某 个 合适 的 停止 条 件 。 结 点 可 以 
用 一 种 系统 的 方式 更 新 ， 例 如 重复 地 依次 扫描 图 像 ， 或 者 随机 地 选择 结 点 。 

如 果 我 们 有 一 个 更 新 的 顺序 ， 使 得 每 个 像素 都 至 少 被 访问 一 次 ， 且 没有 变量 发 生 改 变 ， 那 么 
根据 定义 ， 算 法 会 收敛 于 概率 的 一 个 局 部 最 大 值 。 然 而 ， 这 未 必 对 应 于 全 局 最 大 值 。 

对 于 这 个 简单 的 例子 来 说 ， 我 们 将 参数 固定 为 8 = 1.0,7 = 2.1 以 及 h = 0。 注 意 , 令 = 0 意 
味 着 两 个 状态 zi; 的 先 验 概率 是 相等 的 。 首 先 ， 我 们 使 用 噪声 图 像 进行 初始 化 ， 然 后 运行 ICM 直 
到 收敛 ， 得 到 了 图 8.30 左 下 角 的 去 噪 图 像 。 注 意 ， 如 果 我 们 令 8 = 0， 从 而 去 除了 相 邻 像素 点 之 
间 的 联系 ， 那 么 整体 概率 最 大 的 解 为 zi; = y; (对 于 所 有 的 让 ， 这 对 应 于 观测 到 的 噪声 图 像 。 

稍 后 ， 我 们 会 讨论 一 种 更 加 高 效 的 算法 寻找 高 概率 的 解 ， 这 种 算法 被 称 为 最 大 加 和 算法 ， 它 
通常 会 产生 更 好 的 解 ， 虽 然 这 种 算法 仍然 不 保证 找到 后 验 概率 的 全 局 最 大 值 。 然 而 ， 对 于 某 类 
模型 ， 包括 由 公式 (8.42) 给 出 的 模型 ， 存 在 基于 图 割 (graph cut) 的 高 效 的 算法 ， 保 证 找到 全 
局 的 最 大 值 (Greig et al., 1989; Boykov et al., 2001; Kolmogorov and Zabih, 2004) 。 图 8.30 的 右 下 
角 给 出 了 将 图 割 算法 应 用 于 去 噪 问题 的 结果 。 











8.3.4 与 有 向 图 的 关系 

我 们 已 经 介绍 了 表示 概率 分 布 的 两 个 图 模型 的 框架 ， 对 应 于 有 向 图 和 无 向 图 。 讨 论 二 者 之 间 
的 关系 是 很 有 意义 的 。 首 先 考虑 下 面 的 问题 : 取 一 个 使 用 有 向 图 描述 的 模型 ， 尝 试 将 其 转化 为 
无 向 图 。 在 某 些 情况 下 ， 和 转化 方法 很 直接 ， 例 如 图 8.32 给 出 的 简单 例子 。 这 里 ， 有 向 图 的 联合 概 
率 分 布 由 一 组 条 件 概率 分 布 的 乘积 给 出 ， 形 式 为 


DZ) =D(Z1)p(Za2 | Z1)p(Z3 | Z2) DZN | ZN_1) (8.44) 
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图 8.33: (q) 一 个 简单 的 有 向 图 的 例子 。(b) 对 应 的 道德 图 。 


现在 假设 我 们 将 其 转化 为 无 向 图 的 表示 方法 ， 如 图 8.32 所 示 。 在 无 向 图 中 ， 最 大 团 块 为 相 邻 结 点 
对 ， 因 此 根据 公式 (8.39) ， 我 们 希望 将 联合 概率 分 布 写成 下 面 的 形式 


D(Z) = en T2) 2,3(T2, 73) WNLN(TN-1, TN) (8.45) 
这 很 容易 做 。 我 们 只 需 令 
W12(Z1, 22) = D(Z1)D(Z2 | 21) 


V2,3(T2, T3) = p(T3 | Z2) 


WN_LN(TN_1,TN) = p(TN | ZN-1) 


其 中 我 们 将 第 一 个 结 点 的 边缘 概率 分 布 p(z1) 放 到 了 第 一 个 势 函数 中 。 注 意 ， 在 这 种 情况 下 ， 划 
分 函数 为 2 = 1。 

让 我 们 考虑 如 何 推 广 这 个 结构 ， 使 得 我 们 可 以 将 任意 由 有 向 图 的 分 解 给 出 的 概率 分 布 转化 为 
用 无 向 图 的 分 解 表 示 的 概率 分 布 。 如 果 无 向 图 的 团 块 势 函 数 由 有 了 向 图 的 条 件 概 率 分 布 给 出 ， 那 
么 这 个 任务 就 可 以 完成 。 为 了 保持 这 个 过 程 的 合法 性 ， 我 们 必须 确保 出 现在 每 个 条 件 概率 分 布 
中 的 变量 的 集合 是 无 向 图 中 至 少 一 个 团 块 的 成 员 。 对 于 有 向 图 中 只 有 一 个 父 结 点 的 结 点 ， 可 以 
通过 简单 地 将 有 向 链接 替换 为 无 向 链接 的 方式 完成 。 然 而 ， 对 于 有 向 图 中 具有 多 个 父 结 点 的 结 
点 来 说 ， 这 样 做 是 不 够 的 。 这 些 结 点 是 我 们 在 讨论 条 件 独 立 性 时 遇 到 的 头 到 头 路 径 的 结 点 。 
考虑 图 8.33 所 示 的 具有 4 个 结 点 的 简单 有 向 图 。 有 向 图 的 联合 概率 分 布 为 





p(X) =D(Z1)p(Z2)p(Z3)D(Z4 | T17223) (8.46) 


我 们 看 到 因子 p(x4 | zi, zz,z3) 涉 及 到 四 个 变量 zl zz,za 和 2Z4， 所 以 如 果 这 个 条 件 概 率 分 布 被 
整合 到 团 块 势 函 数 中 时 ， 这 些 变 量 一 定 属于 一 个 团 块 。 为 了 确保 这 一 点 ， 我 们 在 xz4 的 所 有 
父 结 点 之 间 添 加 额外 的 链接 。 使 用 一 种 过 时 的 说 法 ， 这 种 “与 父 结 点 结婚 的 过 程 被 称 为 伦理 
(moralization) ,去掉 箭头 后 生成 的 无 向 图 被 称 为 道德 图 (moral graph) 。 很 重要 的 一 点 是 ， 
这 个 例子 中 的 道德 图 是 完全 链接 的 ， 因 此 没有 表现 出 条 件 独立 性 质 ， 这 与 原始 的 有 向 图 相反 。 

因此 ， 通 常 为 了 将 有 向 图 转化 为 无 向 图 ， 我 们 首先 在 图 中 每 个 结 点 的 所 有 父 结 点 之 间 添 加 额 
外 的 无 向 链接 ， 然 后 去 掉 原 始 链接 的 箭头 ， 得 到 道德 图 。 之 后 ， 我 们 将 道德 图 的 所 有 的 团 块 势 
函数 初始 化 为 1。 接 下 来 ,我们 拿 出 原始 有 向 图 中 所 有 的 条 件 概率 分 布 因 子 ， 将 它 乘 到 一 个 团 块 
势 函数 中 去 。 由 于 “伦理 步骤 的 存在 ， 总 会 存在 至 少 一 个 最 大 的 团 块 ， 包 含 因子 中 的 所 有 变 
量 。 注 意 ， 在 所 有 情形 下 ， 划 分 函数 都 为 2 = 1。 

将 有 向 图 转化 为 无 向 图 的 过 程 在 精确 推断 方法 中 起 着 重要 的 作用 ， 例 如 联合 树 算 法 
(junction tree algorithm) 。 从 一 个 无 向 图 转化 到 有 向 图 表示 不 太 常 用 ， 通 常 表 示 归 一 化 限制 中 
出 现 的 问题 。 

我 们 看 到 从 一 个 有 向 图 表示 转化 为 无 向 图 表示 的 过 程 中 ， 我 们 必须 从 图 中 丢弃 掉 一 些 条 件 独 
立 性 质 。 当 然 ， 通 过 简单 地 使 用 全 连接 的 无 向 图 ， 我 们 可 以 很 容易 地 将 有 向 图 上 的 任意 概率 分 
布 转化 为 无 向 图 上 的 概率 分 布 。 但 是 ， 这 会 丢弃 掉 所 有 的 条 件 独立 性 质 ， 因 此 没有 意义 。“ 伦 
理 ”过程 增 加 了 最 少 的 额外 链接 ， 因 此 保持 了 最 大 的 条 件 独立 性 质 。 
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图 8.34: Venn 图 ， 给 出 了 一 个 给 定 的 变量 集合 上 的 所 有 分 布 的 集合 P 以 及 可 以 用 有 效 图 表示 为 完美 图 的 分 
布 集 合 D， 还 有 可 以 使 用 无 向 图 表示 的 完美 图 的 分 布 集合 UV。 
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图 8.35: 条 件 独 立 性 质 不 能 够 使 用 同样 的 三 个 变量 上 的 无 向 图 表示 的 有 向 图 。 


我 们 已 经 看 到 判断 条 件 独立 性 质 的 步骤 对 于 有 向 图 和 无 向 图 是 不 同 的 。 可 以 证 明 ， 这 两 种 类 
型 的 图 可 以 表示 不 同 的 条 件 独立 性 质 。 这 一 点 很 值得 详细 研究 。 为 了 研究 这 个 问题 ， 我 们 回 到 
一 个 具体 的 用 作 滤 波 器 的 有 向 图 或 者 无 向 图 ， 从 而 给 定 变量 上 的 所 有 可 能 的 概率 分 布 的 集合 都 
可 以 被 化 科 为 一 个 子 集 ， 这 个 子 集 保持 了 图 给 出 的 条 件 独立 性 质 。 如 果 一 个 概率 分 布 中 的 所 有 
条 件 独立 性 质 都 通过 一 个 图 反映 出 来 ， 那 么 这 个 图 被 称 为 这 个 概率 分 布 的 D 图 (D map， 表 
示 “ 依 赖 图 ”(dependency map) ) 。 因 此 一 个 完全 非 连接 的 图 (不 存在 链接 ) 是 任意 概率 分 布 的 
平凡 D 图 。 

我 们 还 可 以 考虑 一 个 具体 的 概率 分 布 ， 判 断 哪些 图 具有 适当 的 条 件 独立 性 质 。 如 果 一 个 图 的 
每 个 条 件 独立 性 质 都 可 以 由 一 个 具体 的 概率 分 布 满足 ， 那 么 这 个 图 被 称 为 这 个 概率 分 布 的 区 
(map， 表 示 “ 独 立 图 ”(independence map) ) 。 显 然 ， 一 个 完全 连接 的 图 是 任意 概率 分 布 的 平 
几 I 图 。 

如 果 概 率 分 布 的 每 个 条 件 独立 性 质 都 由 可 以 由 图 反映 出 来 ， 反 之 也 成 立 ， 那 么 这 个 图 被 称 为 
是 概率 分 布 的 完美 图 (perfect map) 。 于 是 ， 一 个 完美 图 既是 [图 又 是 D 图 。 

考虑 概率 分 布 的 集合 ， 对 于 每 个 概率 分 布 ， 都 存在 一 个 有 向 图 ， 且 这 个 有 向 图 是 完美 图 。 这 
个 集合 与 概率 分 布 组 成 的 下 面 的 集合 不 同 : 对 于 每 个 概率 分 布 ， 存 在 一 个 无 向 图 ， 这 个 无 向 图 
是 完美 图 。 此 外 ， 存 在 这 样 的 概率 分 布 : 有 向 图 和 无 向 图 都 无 法 成 为 它 的 完美 图 。 图 8.34 给 出 了 
这 个 关系 的 Venn 图 表示 。 

图 8.35 给 出 了 一 个 有 向 图 ， 它 是 满足 条 件 独立 性 质 4 4 B | 0 和 4A B | C 的 概率 分 布 的 一 个 完 
美 图 。 这 三 个 变量 上 的 对 应 的 无 向 图 中 ， 不 存在 完美 图 。 

相反 ,考虑 四 个 变量 上 的 无 向 图 如 图 836 所 示 。 这 个 图 表示 条 件 独 立 性 























C 


D 
图 8.36: 条 件 独 立 性 质 不 能 够 使 用 同样 的 变量 集合 上 的 有 向 图 表示 的 无 向 图 。 


之 73 
wwaibbt.com D000O00O0O0 


化 化 化 


(a) (b) (9 
图 8.37: 贝 叶 斯 定理 的 图 表示 。 详 细 讨 论 见 正文 。 


质 44B|O,CLlLD|AUB 以 及 A LB|CUD。 这 四 个 变量 上 的 有 向 图 中 ， 不 存在 表示 同样 的 
条 件 独 立 性 质 集 合 的 有 向 图 。 

图 框架 可 以 用 一 种 相 容 的 方式 ， 扩 展 为 同时 包含 有 向 链接 和 无 向 链接 的 图 。 这 种 图 被 称 为 链 
图 (chain graphs) (Lauritzen and Wermuth, 1989; Frydenberg, 1990) ， 将 有 向 图 和 无 向 图 都 当 
成 了 具体 的 实例 。 虽 然 与 有 向 图 或 者 无 向 图 自身 相 比 ， 这 种 图 可 以 表示 更 多 的 概率 分 布 ， 但 是 
仍然 存在 概率 分 布 ， 使 得 链 图 也 无 法 给 出 一 个 完美 图 。 本 书 不 会 详细 讨论 链 图 。 


84 图 模型 中 的 推断 


我 们 现在 考虑 图 模型 中 的 推断 问题 ， 图 中 的 一 些 结 点 被 限制 为 观测 值 ， 我 们 想 要 计算 其 他 结 
点 中 的 一 个 或 多 个 子 集 的 后 验 概率 分 布 。 正 如 我 们 将 看 到 的 那样 ， 我 们 可 以 利用 图 结构 找到 高 
效 的 推断 算法 ， 也 可 以 让 这 些 算 法 的 结构 变 得 透明 。 具 体 来 说 ， 我 们 会 看 到 许多 算法 可 以 用 图 
中 局 部 信息 传播 的 方式 表示 。 本 节 中 ， 我 们 会 把 注意 力主 要 集中 于 精确 推 则 的 方法 。 在 第 10 章 
中 ， 我 们 会 考虑 许多 近似 推断 的 算法 。 

首先 ， 让 我 们 考虑 贝 叶 斯 定理 的 图 表示 。 假 设 我 们 将 两 个 变量 和 y 上 的 联合 概率 分 
布 p(z,y) 分 解 为 因子 的 乘积 的 形式 p(z,y) = p(x)p(y | z)。 这 可 以 用 图 8.37(@) 中 的 有 向 图 表示 。 
现在 假设 我 们 观测 到 了 y 的 值 ， 如 图 8.37() 中 的 阴影 结 点 所 示 。 我 们 可 以 将 边缘 概率 分 布 p(z) 看 
成 潜在 变量 z 上 的 先 验 概率 分 布 ， 我 们 的 目标 是 推断 z 上 对 应 的 后 验 概率 分 布 。 使 用 概率 的 加 和 
规则 和 乘积 规则 ， 我 们 可 以 计算 


p(y) = >》 DO | x )p(z) (8.47) 
这 个 式 子 然后 被 用 于 贝 叶 斯 定理 中 ， 计 算 
ee i 2 A 2) al) (8.48, 


p(y) 


因此 现在 联合 概率 分 布 可 以 通过 p(y) 和 p(x | y)。 从 图 的 角度 看 ， 联 合 概率 分 布 p(z,y) 现 在 可 以 
表示 为 图 837(9 所 示 的 图 ， 其 中 箭头 的 方向 翻转 了 。 这 是 图 模型 中 推 肠 问题 的 最 简单 的 例子 。 


8.4.1 ， 链 推断 
现在 考虑 一 个 更 加 复杂 的 问题 ， 涉 及 到 图 8.32 所 示 的 结 点 链 。 这 个 例子 是 本 节 中 对 更 一 般 的 
图 的 精确 推断 的 讨论 的 基础 。 


具体 地 ， 我 们 会 考虑 图 8.32(b) 所 示 的 无 向 图 。 我 们 已 经 看 到 ， 有 向 链 可 以 被 转化 为 一 个 等 价 
的 无 向 链 。 由 于 有 向 图 中 任何 结 点 的 父 结 点 数量 都 不 超过 一 个 ， 因 此 不 需要 添加 任何 额外 的 链 
接 ， 并 且 图 的 有 向 版 本 和 无 向 版 本 表示 完全 相同 的 条 件 依 赖 性 质 集合 。 

这 个 图 的 联合 概率 分 布 形式 为 


1 
D(Z) = F912(21, T2) 2,3(T2, T3) WNLN(TN-1, TN) (8.49) 
我 们 会 考虑 一 个 具体 的 情形 ， 即 NN 个 结 点 表示 NN 个 离散 变量 ， 每 个 变量 都 有 K 个 状态 。 这 种 情 


况 下 的 势 函 数 ww_1n(zn-1,zn) 由 一 个 KK x K 的 表 组 成 ， 因 此 联合 概率 分 布 有 (NN 一 1)K? 个 参 
数 。 
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证 我 们 考虑 寻找 边缘 概率 分 布 p(zn) 这 一 推断 问题 ， 其 中 zn 是 链 上 的 一 个 具体 的 结 点 。 注 
意 ， 现 阶段 ， 没 有 观测 结 点 。 根 据 定 义 ， 这 个 边缘 概率 分 布 可 以 通过 对 联合 概率 分 布 在 除 zn 以 
外 的 所 有 变量 上 进行 求 和 的 方式 得 到 ， 即 


pzn) 一 > > > > vp(z) (8.50) 


Tn—l1 Tn+l1 





在 一 个 朴素 的 实现 中 ， 我 们 首先 计算 联合 概率 分 布 ， 然 后 显 式 地 进行 求 和 。 联 合 概 率 分 布 可 
以 表示 为 一 组 数 ， 对 应 于 zx 的 每 个 可 能 的 值 。 因 为 及 个 变量 ， 每 个 变量 有 个 可 能 的 状态 ， 
此 z 有 天 ~ 个 可 能 的 值 ， 从 而 联合 概率 的 计算 和 存储 以 及 得 到 p(zn) 所 需 的 求 和 过 程 ， 涉 及 到 的 
存储 量 和 计算 量 都 会 随 着 链 的 长 度 和 N 而 指数 增长 。 

然而 ， 通 过 利用 图 模型 的 条 件 独 立 性 质 ， 我 们 可 以 得 到 一 个 更 加 高 效 的 算法 。 如 果 我 们 将 联 
合 概率 分 布 的 分 解 表达 式 〈8.49) 代入 到 公式 (8.50) 中 ,那么 我 们 可 以 重新 整理 加 和 与 乘积 包 
顺序 ， 使 得 需要 求解 的 边缘 概率 分 布 可 以 更 加 高 效 地 计算 。 例 如 ， 考 虑 对 zn 的 求 和 。 势 函 
数 VN_1,N(ZN-1, YN) 是 唯一 与 YN 有 关系 的 势 函 数 ， 因 此 我 们 可 以 进行 下 面 的 求 和 


DVN-LN(ZN-1, ZN) (8.51) 


TN 


得 到 一 个 关于 zN-1 的 函数 。 之 后 ， 我 们 可 以 使 用 它 进 行 Zw-1 上 的 求 和 ， 这 只 涉及 到 这 个 新 
的 函数 以 及 势 函数 ww_-2N-1i(Zw-2ZN-1)， 因 为 这 个 势 函 数 是 唯一 出 现 了 zw-1 的 地 方 。 类 似 
地 ，2Z1 上 的 求 和 式 只 涉及 到 势 函 数 Wia(zl,z2)， 因 此 可 以 单独 进行 ， 得 到 zz 的 函数 ， 以 此 类 
推 。 因 为 每 个 求 和 式 都 移 除 了 概率 分 布 中 的 一 个 变量 ， 因 此 这 可 以 被 看 成 从 图 中 移 除 一 个 结 
点 。 


JAY 








如 果 我 们 使 用 这 种 方式 对 势 函数 和 求 和 式 进行 分 组 ， 那 么 我 们 可 以 将 需要 求解 的 边缘 概率 密 
度 写 成 下 面 的 形式 


N| 一 


p(xn) = 


b> Yn-in(Tn-1, Tn) > V2,3(T2, 13) > oa 四 








Tn—l 
pa (8.52) 
>》 加 mi(Zn nt1) > wnt)| 
Tnt+l1 ZN 
HB (Zn) 


我 们 建议 读者 仔细 研究 这 个 重 排序 的 方式 ， 因 为 这 背后 的 思想 组 成 了 后 续 对 于 一 般 的 加 和 -乘积 
算法 的 讨论 的 基础 。 这 里 ， 我 们 利用 的 关键 的 概念 是 乘法 对 加 法 的 分 配 率 ， 即 


ab 十 ac 一 0 十 o) (8.53) 


其 中 左 侧 涉及 到 三 次 算术 计算 而 右 侧 将 它 简化 成 了 两 次 计算 。 

证 我 们 考察 使 用 这 种 重 排序 的 表达 式 之 后 ， 计 算 边缘 概率 分 布 所 需 的 计算 代价 。 我 们 必须 进 
行 N 一 1 次 求 和 ， 每 次 求 和 的 对 象 是 K 个 状态 ， 并 且 每 次 求 和 涉及 到 两 个 变量 组 成 的 函数 。 例 
如 ， 对 Zz1 的 求 和 只 涉及 到 函数 ,2(71,7X2)， 这 是 一 个 下 x 五 的 表格 。 对 于 每 个 zz ， 我 们 必须 关 
于 z1 对 这 个 表 进 行 求 和 ， 因 此 计算 代价 为 O(K”)。 得 到 的 KK 个 数字 的 向 量 与 w2,3(x2, 23) 的 矩阵 
相 乘 ， 计 算 代价 还 是 O(K?)。 因 为 有 N - 1 次 这 样 的 求 和 与 乘积 操作 ， 因 此 计算 边缘 概率 分 
布 p(zn) 的 总 代价 是 OUNK2)。 这 是 链 长 度 的 一 个 线性 函数 ， 与 朴素 方法 的 指数 代价 不 同 。 于 
是 ,我们 已 经 能 够 利用 这 个 简单 图 的 许多 条 件 独立 性 质 来 得 到 一 个 高 效 的 计算 方式 。 如 果 图 是 
全 连接 的 ， 那 么 将 不 存在 条 件 独 立 性 质 ， 我 们 就 必须 直接 计算 完整 的 联合 概率 分 布 。 
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图 8.38: 对 于 结 点 链 上 的 一 个 结 点 zn， 边 缘 概 率 分 布 可 以 通过 下 面 的 方式 求 得 : 将 两 个 信 
息 Ua(zn) 和 He(zn) 相 乘 ， 然 后 归 一 化 。 这 些 信 息 本 身 可 以 通过 从 结 点 链 的 两 侧 向 结 点 zw 传递 信息 的 方式 
递归 地 计算 。 


我 们 现在 使 用 图 中 局 部 信息 传递 的 思想 ， 给 出 这 种 计算 的 一 个 强大 的 直观 意义 。 根 据 公式 
(8.52) ， 我 们 看 到 边缘 概率 分 布 p(zn) 的 表达 式 分 解 成 了 两 个 因子 的 乘积 乘 以 归 一 化 常数 
1 


p(zn) = FHa(Tn) p(Tn) (8.54) 
我 们 把 ja(zn) 看 成 从 结 点 Zn-1 到 结 点 zn 的 沿 着 链 向 前 传递 的 信息 。 类 似 地 ，jwa(zxn) 可 以 看 成 从 
结 点 Zn+1 到 结 点 Zn 的 沿 着 链 向 后 传递 的 信息 。 注 意 ， 每 条 信息 由 天 个 值 的 集合 构成 ， 每 个 值 对 
应 于 zn 的 一 种 选择 ， 因 此 两 条 信息 的 乘积 可 以 被 看 做 两 条 信息 的 元 素 之 间 的 点 积 ， 得 到 另 
外 K 个 值 的 集合 。 
信息 Ha(zn) 可 以 递归 地 计算 ， 因 为 


Hal(Tn) > > Wn_1n(Tn_1, Tn) b> a 




















Tn_1 Tn—2 (8.55) 
a > Wn_in(Tn_1, Tn) Mal(Tn-1) 
因此 我 们 首先 计算 
Ha(z2) = > Waia(zl， 2Z2) (8.50) 
然后 重复 应 用 公式 (8.55) 直到 我 们 到 达 需 要 求解 的 结 点 。 注 意 一 下 信息 传递 方程 的 结构 。 公 式 
(8.55) 中 的 向 外 传播 的 信息 Ha(zn) 通 过 下 面 的 方式 得 到 : 将 输入 信息 Ha(zn-1) 与 涉及 到 结 点 
变量 与 输出 变量 的 势 函 数 相 乘 ， 然 后 对 结 点 变量 求 和 。 
类 似 地 ， 信 息 16(za) 可 以 递归 的 计算 。 计 算 方 法 为 : 从 结 点 ZN 开始 ， 使 用 
M8(Tn) = > Wr nl (Ty Tn) b> Ee | 
zt nt (8.57) 








= Wnn+1(Tn, Tn+1) M8 (Tnt1) 





这 种 递归 的 信息 传递 如 图 8.38 所 示 。 归 一 化 常数 2 很 容易 通过 对 公式 (8.54) 右 侧 关 于 zn 的 所 有 
状态 求 和 的 方式 得 到 ， 这 只 需要 O(K) 次 计算 。 

图 8.38 所 示 的 图 被 称 为 马尔 科 夫 链 (Markov chain) ， 对 应 的 信息 传递 方程 是 马尔 科 夫 过 程 
的 Chapman-Kolmogorov 方 程 的 一 个 例子 (Papoulis, 1984) 。 

现在 假设 我 们 将 计算 链 中 每 个 结 点 mn e {1,.……., NN} 的 边缘 概率 分 布 p(xn)。 简 单 地 对 每 个 结 点 
单独 地 应 用 上 面 的 步骤 产生 的 计算 代价 为 O(N?K?)。 然 而 ， 这 种 方法 对 于 计算 很 浪费 。 例 如 ， 
为 了 得 到 p(x1)， 我 们 需要 将 信息 4a() 从 结 点 ZN 传递 到 结 点 2。 类 似 地 ， 为 了 计算 p(x2)， 我 们 
需要 将 信息 18() 从 结 点 ZN 传递 到 结 点 za。 这 涉及 到 许多 重复 的 计算 ， 因 为 这 两 种 情况 下 ， 大 部 
分 信息 都 是 相同 的 。 

假设 我 们 首先 计算 出 结 点 zy 开始 的 信息 La(znN-1)， 然 后 将 信息 一 路 传递 回 结 点 1， 同 时 假 
设 我 们 类 似 地 计算 出 了 从 结 点 x1 开始 的 信息 ka(x2)， 然 后 将 信息 一 路 向 前 传递 到 结 点 zy。 只 要 
我 们 存储 了 所 有 的 中 间 人 信息， 那么 任何 结 点 的 边缘 概率 分 布 都 可 以 通过 使 用 公式 (8.54) 简单 地 
计算 出 来 。 计 算 代价 仅仅 是 找到 一 个 结 点 的 边缘 概率 分 布 的 二 倍 ， 而 不 是 N 倍 。 我 们 观察 到 ， 
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图 8.39: 三 个 树 结构 的 例子 。(o) 一 个 无 向 树 ，(b) 一 个 有 向 树 ，(9 一 个 有 向 多 树 。 





一 个 信息 沿 着 图 中 每 个 链接 在 每 个 方向 上 都 传递 了 一 次 。 还 要 注意 ， 归 一 化 常数 Z 只 需 计 算 一 
次 ,使 用 任何 一 个 结 点 都 可 以 计算 。 

如 果 图 中 的 某 些 结 点 被 观测 到 ， 那 么 对 应 的 变量 简单 地 被 限制 为 观测 值 即 可 ， 不 需要 求 和 。 
为 了 说 明 这 一 点 ， 我 们 注意 到 将 变量 x% 限 制 为 一 个 观测 值 2, 的 效果 可 以 表示 为 将 联合 概率 分 布 
乘 以 一 个 额外 的 函数 T(zn, 加) ， 这 个 函数 当 zn = Zn 时 取 值 为 1!， 其 他 情况 取 值 为 0。 这 种 函数 可 
以 被 整合 到 包含 Zz 的 势 函 数 中 。 这 样 ， 对 zn 的 求 和 值 包 含 zn = 3 的 一 项 。 

现在 假设 我 们 项 计算 结 点 链 中 两 个 相 邻 结 点 的 联合 概率 分 布 p(zn_1, zn)。 这 类 似 于 计算 单一 
结 点 的 边缘 概率 分 布 ， 区 别 在 于 现在 有 两 个 变量 没有 被 求 和 出 来 。 稍 微 思考 一 下 ， 我 们 就 会 看 
到 ， 需 要 求解 的 边缘 概率 分 布 可 以 写成 下 面 的 形式 

p(Tn_1, 区 天) = Solen_1) bn_1n(sn-1 Tn) M8(Tn) (8.58) 
因此 一 旦 我 们 完成 了 计算 边缘 概率 分 布 所 需 的 信息 传递 ， 我 们 就 可 以 直接 得 到 每 个 势 函 数 中 的 
所 有 变量 上 的 联合 概率 分 布 。 

这 是 一 个 很 有 用 的 结果 ， 因 为 在 实际 应 用 中 ， 我 们 可 能 希望 使 用 团 块 势 函数 的 参数 形式 ， 或 
者 等 价 地 ， 使 用 条 件 概率 分 布 的 参数 形式 (在 有 向 图 中 ) 。 为 了 在 并 非 所 有 的 变量 都 被 观测 到 
的 情况 下 学 习 势 函数 的 参数 ， 我 们 可 以 使 用 EM 算法 。 可 以 证 明 ， 以 任意 观测 数据 为 条 件 ， 团 块 
的 局 部 联合 概率 分 布 恰好 是 E 步 又 中 所 需要 的 。 我 们 会 在 第 13 章 详细 讨论 一 些 例 子 。 





8.42 树 


我 们 已 经 看 到 ， 一 个 由 结 点 链 组 成 的 图 的 精确 推断 可 以 在 关于 结 点 数量 的 线性 时 间 内 完成 ， 
方法 是 使 用 通过 链 中 信息 传递 表示 的 算法 。 更 一 般 地 ， 通 过 局 部 信息 在 更 大 的 一 类 图 中 的 传 
递 ， 我 们 可 以 高 效 地 进行 推断 。 这 类 图 被 称 为 树 (tree) 。 特 别 地 ， 我 们 会 对 之 前 在 结 点 链 的 情 
形 中 得 到 的 信息 传递 公式 进行 简单 的 推广 ， 得 到 加 和 -乘积 算法 (sum-product algorithm) ， 它 为 
树 结构 图 的 精确 推断 提供 了 一 个 高 效 的 框架 。 

在 无 向 图 的 情形 中 ， 树 被 定义 为 满足 下 面 性 质 的 图 : 任意 一 对 结 点 之 间 有 且 只 有 一 条 路 径 。 
于 是 这 样 的 图 没有 环 。 在 有 向 图 的 情形 中 ， 树 的 定义 为 : 有 一 个 没有 父 结 点 的 结 点 ， 被 称 为 根 


(root) ， 其 他 所 有 的 结 点 都 有 一 个 父 结 点 。 如 果 我 们 将 有 向 树 转 化 为 无 向 图 ， 我 们 会 看 到 伦 
理 步骤 不 会 增加 任何 链接 ， 因 为 所 有 的 结 点 至 多 有 一 个 父 结 点 ， 从 而 对 应 的 道德 图 是 一 个 无 向 





树 。 无 向 树 和 有 向 树 的 例子 如 图 8.39(@) 和 8.39(b) 所 示 。 注 意 ， 一 个 表示 为 有 向 树 的 概率 分 布 可 以 
很 容易 地 转化 为 一 个 由 无 向 树 表 示 的 概率 分 布 ， 反 之 亦 然 。 

如 果 有 向 图 中 存在 具有 多 个 父 结 点 的 结 点 ， 但 是 在 任意 两 个 结 点 之 间 仍 然 只 有 一 条 路 径 ( 忽 
略 箭头 方向 ) ， 那 么 这 个 图 被 称 为 多 树 (polytree) ， 如 图 8.39(Q 所 示 。 这 样 的 图 中 ， 存 在 多 个 
没有 父 结 点 的 结 点 ， 并 且 对 应 的 道德 无 向 图 会 存在 环 。 


8.4.3 ”因子 图 


在 下 一 节 中 我 们 将 要 推导 的 加 和 -乘积 算法 适用 于 无 向 树 、 有 向 树 以 及 多 树 。 如 果 我 们 首先 
引入 一 个 新 的 图 结构 ， 被 称 为 因子 图 (factor graph) (Frey, 1998; Kschischnang et al., 2001) ， 
那么 算法 的 形式 会 变 得 特别 简单 并 且 具 有 一 般 性 。 

有 向 图 和 无 向 图 都 使 得 若干 个 变量 的 一 个 全 局 函数 能 够 表示 为 这 些 变量 的 子 集 上 的 因子 的 乘 
限 。 因 子 图 显 式 地 表示 出 了 这 个 分 解 ， 方 法 是 : 在 表示 变量 的 结 点 的 基础 上 ， 引 入 额外 的 结 点 
表示 因子 本 身 。 因 子 图 也 使 我 们 能 够 更 加 清晰 地 了 解 分 解 的 细节 ， 正 如 我 们 将 看 到 的 那样 。 
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fa i fc fa 
图 8.40: 因子 图 的 例子 ， 对 应 于 公式 (8.60) 的 分 解 。 


” 


图 8.41: (ao 一 个 无 向 图 有 一 个 单一 的 团 块 势 函数 Vy(zi1,z2,7z3)。 人 b) 一 个 因子 图 ， 
子 jziza,zs) 二 VW(z1, 7X2,X3)， 它 表示 与 无 向 图 相同 的 概率 分 布 。(O 一 个 不 同 的 因子 图 ， a 
率 分 布 ， 它 的 因子 满足 fo(z1, 72, XY3)fo(7z2,7X3) = W(X1, 22, 23)o 








让 我 们 将 一 组 变量 上 的 联合 概率 分 布 写成 因子 的 乘积 形式 
= | [3 (8.59) 


其 中 zs 表示 变量 的 一 个 子 集 。 为 了 方便 ， 我 们 把 单独 的 变量 记 作 xz;， 但 是 在 之 前 的 讨论 中 ， 这 
可 以 由 一 组 变量 组 成 (例如 向 量 或 矩阵 ) 。 每 个 因子 fs 是 对 应 的 变量 集合 zs 的 函数 。 

有 向 图 的 分 解 由 公式 (8.5) 定义 ， 表 示 公 式 (8.59) 的 特殊 情况 ， 即 因子 fs(xs) 是 局 部 条 件 
概率 分 布 。 类 似 地 ， 公式 (8.39) 给 出 的 无 向 图 的 分 解 ， 也 是 一 个 特例 ， 即 因子 是 最 大 团 块 上 的 
势 函数 ( 归 一 化 系数 冯 可 以 被 看 做 定义 在 空 变量 集合 上 的 因子 ) 。 

在 因子 图 中 ， 概率 分 布 中 的 每 个 变量 都 有 一 个 结 点 (与 之 前 一 样 ， 用 圆圈 表示 ) ， 这 与 有 向 
图 和 无 向 图 的 情形 相同 。 还 存在 其 他 的 结 点 (用 小 正方 形 表示 ) ， 表示 联合 概率 分 布 中 的 每 个 
因子 fs(zs)。 最 后 ， 在 每 个 因子 结 # 点 和 因子 所 依赖 的 变量 结 点 之 间 ， 存在 无 向 链接 。 例 如 ， 考 
虑 一 个 表示 为 因子 图 形式 的 概率 分 布 


D(Z) = falz1, x2) fo(z1, 72)fe(T2, 73)fa(73) (8.60) 


这 可 以 表示 为 图 8.40 所 示 的 因子 图 。 注 意 有 两 个 因子 fa(z1, zz) 和 万 (zl 7X2) 定 义 在 同一 个 变量 集 
合 上 。 在 一 个 无 向 图 中 ， 两 个 这 样 的 因子 的 乘积 被 简单 地 合并 到 同一 个 团 块 势 函数 中 。 类 似 
地 ， 大 (zz2,z3) 和 万 (zs) 可 以 结合 到 zz 和 zs3 上 的 一 个 单一 势 函 数 中 。 然 而 ， 因 子 图 显 式 地 写 出 这 
些 因 子 ， 因 此 能 够 表达 出 关于 分 解 本 身 的 更 加 细节 的 信息 。 

由 于 因子 图 由 两 类 不 同 的 结 点 组 成 ， 且 所 有 的 链接 都 位 于 两 类 不 同 的 结 点 之 间 ， 因 此 因子 图 
被 称 为 二 分 的 (bipartite) 。 于 是 ， 因 子 图 通常 总 可 以 被 画 成 两 排 结 点 (变量 结 点 在 上 排 ， 因 子 

结 点 在 下 排 ) ， 同 时 两 排 结 点 之 间 具 有 和 链接， 如 图 8.40 所 示 。 然 而 ， 在 某 些 情况 下 ， 其 他 的 表示 
因子 图 的 方式 可 能 符合 直觉 ， 例 如 因子 图 从 有 向 图 或 者 无 向 图 中 推导 出 的 情形 ， 正 如 我 们 将 
要 看 到 的 那样 。 

如 果 我 们 有 一 个 通过 无 向 图 表示 的 概率 分 布 ， 那 么 我 们 可 以 将 其 转化 为 因子 图 。 为 了 完成 这 
一 点 ， 我 们 构造 变量 结 点 ， 对 应 于 原始 无 向 图 ， 然 后 构造 额外 的 因子 结 点 ， 对 应 于 最 大 团 
块 zs。 因 子 六 (z。) 被 设置 为 与 团 块 势 函 数 相 等 。 注 意 ， 对 于 同一 个 无 向 图 ， 可 能 存在 几 个 不 同 
的 因子 图 。 图 8.41 说 明了 这 些 概念 。 

类 似 地 ， 为 了 将 有 向 图 转化 为 因子 图 ， 我 们 构造 变量 结 点 对 应 于 有 向 图 中 的 结 点 ， 然 后 构造 
因子 结 点 ， 对 应 于 条 件 概 率 分 布 ， 最 后 添加 上 合适 的 链接 。 与 之 前 一 样 ， 同 一 个 有 向 图 可 能 
应 于 多 个 因子 图 。 有 向 图 到 因子 图 的 转化 如 图 8.42 所 示 。 
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YY 


图 8.42: (q) 一 个 有 向 图 ， 可 以 分 解 为 p(z1)p(x2)p(z3 | Xz1,22)。(b) 一 个 因子 图 ， 表 示 与 有 向 图 相同 的 概率 
分 布 ， 0 T2, = op (Z2)D(Z3 | 1 表示 同样 的 概率 分 
布 ， 因子 为 fo( (Zz1) ), fol Z2) ), fel X1, XT2, Z3) D(Z3 | Xl1, Z2) 


VY 


图 8.43: (o) 一 个 有 向 多 树 。(b) 将 多 树 转化 为 无 向 图 的 结果 ， 展 示 了 环 的 形成 。(9 将 多 树 转化 为 因子 图 的 
结果 ,保留 了 树 形 结构 。 








我 们 已 经 看 到 了 树 结 构图 对 于 进行 高 效 推断 的 重要 性 。 如 果 我 们 将 一 个 有 向 树 或 者 无 向 树 转 
化 为 因子 图 ,那么 生成 的 因子 图 也 是 树 〈 即 ， 因 子 图 没有 环 ， 且 任意 两 个 结 点 之 间 有 且 只 有 一 
条 路 径 ) 。 在 有 向 多 树 的 情形 中 ， 由 于 伦理 步骤 的 存在 ， 转 化 为 无 向 图 会 引入 环 ， 而 转化 后 
的 因子 图 仍然 是 树 ， 如 图 8.43 所 示 。 事 实 上 ， 有 向 图 中 由 于 链接 父 结 点 和 子 结 点 产生 的 局 部 环 可 
以 在 转换 到 因子 图 时 被 移 除 ， 只 需 定义 合适 的 因子 函数 即 可 ， 如 图 8.44 所 示 。 

我 们 已 经 看 到 多 个 不 同 的 因子 图 可 以 表示 同一 个 有 向 图 或 者 无 向 图 。 这 使 得 因子 图 对 于 分 解 
的 精确 形式 的 表示 更 加 具体 。 图 8.45 给 出 了 一 个 全 连接 的 无 向 图 以 及 两 个 不 同 的 因子 图 的 例子 。 
在 图 中， 联合 概率 分 布 是 一 般 形 式 p(x) = f(zx1, za2,zs)， 而 在 图 @ 中 ， 它 表示 为 一 个 更 加 具 
体 的 分 解 方式 p(z) = 万 (zl za2) 记 (zlz3)jza2,z3)。 应 该 强调 的 是 ， 忆 中 的 分 解 不 对 应 于 任何 
条 件 独立 性 质 。 




















8.44 加 和 -乘积 算法 


我 们 会 使 用 因子 图 框架 推导 一 类 强大 的 、 高 效 的 精确 推断 算法 ， 这 些 算法 适用 于 树 结 构 的 
图 。 这 里 ， 我 们 把 注意 力 集中 于 计算 结 点 或 者 结 点 子 集 上 的 局 部 边缘 概率 分 布 ， 这 会 引出 加 
和 -乘积 算法 (sum-product algorithm) 。 稍 后 ， 我 们 会 修改 这 个 方法 ， 使 得 概率 最 大 的 状态 被 找 
到 ， 这 就 引出 了 最 大 加 和 算法 (max-sum algorithm) 。 

此 外 ， 我 们 假设 模型 中 所 有 的 变量 都 是 离散 的 ， 因 此 求 边 缘 概 率 对 应 于 求 和 的 过 程 。 然 而 ， 


Tl1 T2 TX1 LX2 


f(z1, Z2;)23) 


3 3 


图 8.44: (具有 局 部 环 的 有 向 图 的 片段 。(b) 转 化 得 到 的 因子 图 的 片段 具有 树 形 结构 ， 其 
中 f(zx1, 22, x3) = p(X1)p(7T2 | Z1)p(Z3s | £1, £2)o 
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Tl1 2 Tl TL2 Tl fa T2 


f (x1, T2, T3) 


hn fe 


3 3 3 


图 8.45: (表示 一 个 完全 连接 的 无 向 图 。) 和 (表示 两 个 因子 图 ， 每 个 因子 图 都 对 应 于 (q 中 的 无 向 图 。 








(7 2 





图 8.46: 因子 图 的 片段 ， 说 明了 边缘 概率 分 布 z(z) 的 计算 。 


这 个 框架 同样 适用 于 线性 高 斯 模型 ， 这 种 情形 下 求 边缘 概率 涉及 到 求 积 分 。 当 我 们 讨论 线性 动 
态 系统 时 ， 我 们 会 详细 讨论 这 种 情形 。 

关于 有 向 无 环 图 的 精确 推断 ， 有 一 个 被 称 为 置信 传播 (belief propagation) 的 算法 (Pearl, 
1988; Lauritzen and Spiegelhalter, 1988) ， 它 等 价 于 加 和 -乘积 算法 的 一 个 具体 情形 。 这 里 ， 我 们 
只 考虑 加 和 -乘积 算法 ， 因 为 它 的 推导 和 使 用 都 更 容易 ， 并 且 更 一 般 。 

我 们 假设 原始 的 图 是 一 个 无 向 树 或 者 有 向 树 或 者 多 树 ， 从 而 对 应 的 因子 图 有 一 个 树 结 构 。 首 
先 ， 我 们 将 原始 的 图 转化 为 因子 图 ， 使 得 我 们 可 以 使 用 同样 的 框架 处 理 有 向 模型 和 无 向 模型 。 
我 们 的 目标 是 利用 图 的 结构 完成 两 件 事 : (1) 得 到 一 个 高 效 的 精确 推断 算法 来 寻找 边缘 概率 ， 
(2) 在 需要 求解 多 个 边缘 概率 的 情形 ， 计 算 可 以 高 效 地 共享 。 

首先 ， 对 于 特定 的 变量 结 点 z， 我 们 寻找 边缘 概率 p(z)。 现 阶段 ， 我 们 假设 所 有 的 变量 都 是 
八 含 变量 。 稍 后 我 们 会 看 到 如 何 修改 这 个 算法 ， 使 得 观测 变量 被 整合 到 算法 中 。 根 据 定 义 ， 边 
缘 概率 分 布 通过 对 所 有 7z 之 外 的 变量 上 的 联合 概率 分 布 进行 求 和 的 方式 得 到 ， 即 

2 (8.61) 
T\L 
其 中 zx \ x 表示 变量 zx 的 集合 去 掉 变 量 z。 算 法 的 思想 是 使 用 因子 图 的 表达 式 (8.59) 替换 p(z)， 
然后 交换 加 和 与 乘积 的 顺序 ， 得 到 一 个 高 效 的 算法 。 考 虑 图 8.46 给 出 的 图 ， 我 们 看 到 图 的 树 结构 
使 得 我 们 可 以 将 联合 概率 分 布 中 的 因子 划分 为 若干 组 ， 每 组 对 应 于 变量 结 点 z 的 相 邻 结 点 组 成 的 
因子 结 点 集合 。 我 们 看 到 联合 概率 分 布 可 以 写成 乘积 的 形式 
g(a)= || P(X (8.62) 


sEne(z) 
其 中 ne(z) 表 示 与 z 相 邻 的 因子 结 点 的 集合 ，Xs 表 示 子 树 中 通过 因子 结 点 大 与 变量 结 点 z 相 连 的 所 


有 变量 的 集合 ，Fs(z, Xs) 表示 分 组 中 与 因子 fs 相关 联 的 所 有 因子 的 乘积 。 
将 公式 (8.62) 代入 (8.61) ,交换 加 和 与 乘积 的 顺序 ， 我们 有 


p(7) = [I Dna 
Xs 


sEne(z) 


= [I Hfs»z(T) 


SsEne(Z) 














(8.63) 
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GR (oe me) 


图 8.47: 与 因子 结 点 fs 关联 的 子 图 的 分 解 。 


这 里 我 们 引入 了 一 组 新 的 函数 ,yz(7Y)， 定 义 为 


Mpa(t) = > Falw, Xs) (8.64) 
Xs 


这 可 以 被 看 做 从 因子 结 点 ,到 变量 结 点 x 的 信息 (message) 。 我 们 看 到 ， 需 要 求解 的 边缘 概率 
分 布 p(z) 等 于 所 有 到 达 结 点 x 的 输入 信息 的 乘积 。 

为 了 计算 这 些 信息 ， 我 们 再 次 回 到 图 8.46。 我 们 注意 到 每 个 因子 五 (zx, Xs) 由 一 个 因子 图 ( 因 
子 子 图 ) ， 因 此 本 身 可 以 被 分 解 。 特 别 地 ， 我 们 有 


F(x, Xs) = fs(T,T1)..., TMIGI(TI, Xs1)...GM(TM, XsM) (8.65) 


其 中 ,为 了 方便 ， 我们 将 x 之 外 的 与 因子 fs 相关 的 变量 记 作 z1,.…. ,zm。 图 8.47 说 明了 这 个 分 解 
过 程 。 注 意 变量 集合 {7, 71,.…. ,XZM} 是 因子 fs 依赖 的 变量 的 集合 ， 因 此 使 用 公式 (8.59) 的 记 
号 ， 它 也 可 以 被 记 作 z。。 

将 公式 (8.65) 代入 公式 (8.64) ， 我 们 有 


EC [I 





> CGm(Zm， xj 


TM mEne(fs)\z LXsm (8.60) 
SY ie [I Hzmfs (Tm) 
ZT1 TM meEne(fs)\z 
其 中 ne(fs) 表 示 因 子 结 点 fs 的 相 邻 变量 结 点 的 集合 ，ne(fs) \ Xx 表示 同样 的 集合 ， 但 是 移 除 了 结 
点 Z。 这 里 ， 我 们 定义 了 下 面 的 从 变量 结 点 到 因子 结 点 的 信息 
Hzrm Sf (Tm) 三 > GrlBrm; Ram) (8.67) 
Xsm 














于 是 ， 我 们 引入 了 两 类 不 同 的 信息 。 一 类 信息 是 从 因子 结 点 到 变量 结 点 的 信息 ， 记 作 / 广 'z(2)， 
另 一 类 信息 是 从 变量 结 点 到 因子 结 点 的 信息 ， 记 作 Hpz -yj(z)。 在 任何 一 种 情况 下 ， 我 们 看 到 沿 
着 一 条 链接 传递 的 信息 总 是 一 个 函数 ， 这 个 函数 是 与 那个 链接 相连 的 变量 结 点 相关 的 变量 的 函 
数 。 

公式 (8.66) 给 出 的 结果 表明 ， 一 个 变量 结 点 通过 一 个 链接 发 送 到 一 个 因子 结 点 的 信息 可 以 
按照 如 下 的 方式 计算 : 计算 沿 着 所 有 进入 因子 结 点 的 其 他 链接 的 输入 信息 的 乘积 ， 乘 以 与 那个 
结 点 关联 的 因子 ， 然 后 对 所 有 与 输入 信息 关联 的 变量 进行 求 和 。 如 图 8.47 所 示 。 值 得 注意 的 是 ， 
一 旦 一 个 因子 结 点 从 所 有 其 他 的 相 邻 变量 结 点 的 输入 信息 ， 那 么 这 个 因子 结 点 就 可 以 向 变量 结 
点 发 送信 息 。 

最 后 ， 我 们 推导 变量 结 点 到 因子 结 点 的 信息 的 表达 式 ， 再 次 使 用 图 分 解 〈 子 图 分 解 ) 。 根 据 
图 8.48， 我 们 看 到 与 结 点 zm 关联 的 项 Gm (zm, 关 sm) 由 项 用 (zm, Xom) 的 乘积 组 成 ， 每 一 个 这 样 的 


























项 都 与 连接 到 结 点 zm 的 一 个 因子 结 点 及 相关 联 (不 包括 结 点 fs) ， 即 
Ge es | (8.68) 
l€Ene(Tm)\fs 
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人 


图 8.48: 由 一 个 变量 结 点 向 一 个 相 邻 因子 结 点 发 送 的 信息 的 计算 。 


Hz f(T) = 1 Hse(%) = f(z) 


图 8.49: 加 和 -乘积 算法 的 开始 阶段 是 从 叶 结 点 发 送信 息 ， 信 息 取决 于 叶 结 点 是 变量 结 点 ， 或 者 中 ) 因 子 
疆 


结 点 。 


其 中 求 乘积 的 对 象 是 结 点 zm 的 所 有 相 邻 结 点 ， 排 除 结 点 fs。 注 意 ， 每 个 因子 及 (zm, Xim) 表 示 原 
始 图 的 一 个 子 树 ， 这 个 原始 图 与 公式 (8.62) 表示 的 图 的 形式 完全 相同 。 将 公式 (8.68) 代入 
(8.67) ,我 们 可 以 得 到 


l€Ene(Tm)\fs Xim (8.69) 
> Hfi2m (Tm) 


l€Ene(Tm)\fs 


其 中 我 们 使 用 了 因子 结 点 到 变量 结 点 的 信息 传递 的 表达 式 (8.64) 。 因 此 ， 为 了 计算 从 一 个 变量 
结 点 到 相 邻 因子 结 点 沿 着 链接 传递 的 信息 ， 我 们 只 需 简单 地 在 其 他 所 有 结 点 上 对 输入 信息 取 乘 























了 让。 注意 ， 任 何 只 有 两 个 相 邻 结 点 的 变量 结 点 无 需 参 与 计算 ， 只 需 将 信息 不 变 地 传递 过 去 即 
可 。 此 外 ,我 们 注意 到 ， 一 旦 一 个 变量 结 点 接收 到 了 来 自 所 有 其 他 相 邻 因子 结 点 的 输入 信息 ， 


那么 这 个 变量 结 点 就 可 以 给 因子 结 点 发 送信 息 。 
回忆 一 下 ， 我 们 的 目标 是 计算 变量 结 点 z 的 边缘 概率 分 布 ， 这 个 边缘 概率 分 布 等 于 沿 着 所 有 











到 达 这 个 结 点 的 链接 的 输入 信息 的 乘积 。 这 些 信息 中 的 每 一 条 信息 都 可 以 使 用 其 他 的 信息 递归 
地 计算 。 为 了 开始 这 个 递归 计算 的 过 程 ， 我 们 可 以 将 结 点 z 看 成 树 的 根 结 点 ， 然 后 从 叶 结 点 开始 


计算 。 根 据 公式 (8.69) 的 定义 ， 我 们 看 到 如 果 一 个 叶 结 点 是 一 个 变量 结 点 ， 那 么 它 沿 着 与 它 唯 
一 相连 的 链接 发 送 的 信息 为 





HzF(Z) 一 1 (8.70) 


如 图 8.49(@) 所 示 。 类 似 地 ， 如 果 叶 结 点 是 一 个 因子 结 点 ， 那 么 我 们 根据 公式 (8.66) 可 以 看 到 ， 
发 送 的 信息 的 形式 为 
APz(Z) = f(z) (8.71) 


如 图 8.49(b) 所 示 。 

现在 ， 让 我 们 停 下 来 ， 总 结 一 下 计算 边缘 概率 分 布 p(z) 时 得 到 的 加 和 -乘积 算法 。 首 先 ， 我 
们 将 变量 结 点 z 看 成 因子 图 的 根 结 点 ， 使 用 公式 (8.70) 和 公式 (8.71) ,初始 化 图 的 叶 结 点 的 
信息 。 之 后 ， 递 归 地 应 用 信息 传递 步骤 〈8.66) 和 “(8.69) ， 直 到 信息 被 沿 着 每 一 个 链接 传递 完 
毕 ， 并 且 根 结 点 收 到 了 所 有 相 邻 结 点 的 信息 。 每 个 结 点 都 可 以 向 根 结 点 发 送信 息 。 一 旦 结 点 收 
到 了 所 有 其 他 相 邻 结 点 的 信息 ， 那 么 它 就 可 以 向 根 结 点 发 送信 息 。 一 旦 根 结 点 收 到 了 所 有 相 邻 
结 点 的 信息 ， 需 要 求解 的 边缘 概率 分 布 就 可 以 使 用 公式 (8.63) 进行 计算 。 我 们 稍 后 会 说 明 这 个 


过 程 。 








282 
wwaibbt.com DODDDODDOD 








图 8.50: 加 和 -乘积 算法 可 以 被 看 做 纯粹 的 因子 结 点 与 其 他 因子 结 点 之 间 的 信息 传递 。 在 这 个 例子 中 ， 蓝 
色 箭 头 表示 的 输出 信息 可 以 这 样 计算 : 对 所 有 绿色 箭头 表示 的 输入 信息 求 乘积 ， 然 后 乘 以 因子 六 ， 然 后 
在 变量 z1 和 zz2 上 求 和 或 积分 。 


为 了 说 明 每 个 结 点 总 会 收 到 足够 的 信息 来 使 得 发 送信 息 变 得 可 能 ,我们 可 以 使 用 归纳 法 简单 
地 说 明 如 下 。 很 明显 ， 对 于 一 个 由 变量 根 结 点 直接 与 几 个 因子 叶 结 点 相连 的 图 ， 算 法 仅仅 涉及 
到 直接 从 叶 结 点 向 根 结 点 发 送 形 如 (8.71) 的 信息 。 现 在 ,假设 通过 每 次 添加 一 个 结 点 的 方式 构 
建 一 个 一 般 的 图 ， 并 且 假 设 对 于 某 个 特定 的 图 ， 我 们 有 一 个 合法 的 算法 。 当 添加 了 一 个 更 多 的 
结 点 (变量 结 点 或 因子 结 点 ) 之 后 ， 这 个 结 点 只 能 通过 一 个 单一 的 链接 与 图 相连 ， 因 为 整体 的 
图 必须 仍然 是 树 ， 因 此 新 结 点 是 一 个 叶 结 点 。 于 是 ， 这 个 结 点 向 它 连 接 的 结 点 发 送 一 个 信息 ， 
反 过 来 会 收 到 为 了 将 自己 的 信息 送 往 根 结 点 所 需 的 所 有 的 信息 ， 因 此 与 之 前 一 样 ， 我 们 得 到 了 
一 个 合法 的 算法 ， 从 而 完成 了 证 明 。 

现在 假设 我 们 想 寻 找 图 中 每 个 变量 结 点 的 边缘 概率 分 布 。 这 可 以 通过 简单 地 对 每 个 结 点 独立 
地 运行 上 述 算法 的 方式 完成 。 然 而 ， 这 会 相当 浪费 计算 结果 ， 因 为 许多 需要 进行 的 计算 被 重复 
了 多 次 。 通 过 三 加 多 个 信息 传递 算法 ,我们 可 以 得 到 一 个 更 加 高 效 的 步骤， 从 而 得 到 一 般 的 
加 和 -乘积 算法 ， 如 下 所 述 。 任 意 选 择 一 个 结 点 (变量 结 点 或 因子 结 点 ) ， 然 后 将 其 指定 为 根 结 
点 。 像 之 前 一 样 ， 我 们 从 叶 结 点 向 根 结 点 传递 信息 。 现 在 ， 根 结 点 会 接收 到 来 自 所 有 相 邻 结 点 
的 信息 。 因 此 ， 它 可 以 向 所 有 的 相 邻 结 点 发 送信 息 。 反 过 来 ， 这 些 结 点 之 后 会 接收 到 来 自 所 有 
相 邻 结 点 的 信息 ， 因 此 可 以 沿 着 远离 根 结 点 的 链接 发 送出 信息 ， 以 此 类 推 。 通 过 这 种 方式 ， 信 
息 可 以 从 根 结 点 向 外 传递 到 叶 结 点 。 现 在 ,信息 已 经 在 两 个 方向 上 沿 着 图 中 所 有 的 链接 传递 完 
毕 ， 并 且 每 个 结 点 都 已 经 接收 到 了 来 自 所 有 相 邻 结 点 的 信息 。 与 之 前 一 样 ， 可 以 使 用 一 个 简单 
的 归纳 过 程 验证 信息 传递 协议 的 合法 性 。 因 为 每 个 变量 结 点 会 收 到 来 自 所 有 相 邻 结 点 的 信息 ， 
所 以 我 们 可 以 计算 图 中 每 个 变量 的 边缘 概率 分 布 。 必 须 计算 的 的 信息 的 数量 等 于 图 中 链接 数量 
的 二 倍 ， 因 此 所 需 的 计算 量 仅仅 是 计算 一 个 边缘 概率 分 布 的 二 倍 。 作 为 对 比 ， 如 果 我 们 对 每 个 
结 点 分 别 运行 加 和 -乘积 算法 ， 那 么 计算 量 会 随 着 图 的 规模 以 二 次 函数 的 形式 增长 。 注 意 ， 这 个 
算法 实际 上 与 哪个 结 点 被 选择 为 根 结 点 无 关 。 事 实 上 ， 引 入 一 个 具有 具体 状态 的 结 点 仅仅 是 为 
了 便于 解释 信息 传递 协议 。 

接 下 来 ， 假 设 我 们 想 找到 边缘 概率 分 布 ptzs)， 它 与 属于 每 个 因子 的 变量 集合 相关 联 。 通 过 
一 个 与 之 前 类 似 的 讨论 ， 很 容易 看 到 与 某 个 因子 关联 的 边缘 概率 分 布 为 到 达 这 个 因子 结 点 的 信 
上 县 与 这 个 结 点 的 局 部 因子 的 乘积 ， 即 





























p(zs) = 大 (z。) [I Mri fs (Ti) (8.72) 
iEne(fs) 
这 与 变量 结 点 的 边缘 概率 分 布 十 分 相似 。 如 果 因 子 是 参数 化 的 函数 ， 我 们 希望 使 用 EM 算法 学 习 


到 参数 的 值 ， 那 么 这 些 边缘 概率 分 布 恰好 就 是 我 们 在 E 步 又 中 需要 计算 的 值 ， 正 如 我 们 在 第 13 章 
讨论 隐 马 尔 科 夫 模型 时 将 要 看 到 的 那样 。 

正如 我 们 已 经 看 到 的 那样 ， 一 个 变量 结 点 发 送 到 一 个 因子 结 点 的 信息 仅仅 其 他 链接 上 的 输入 
信息 的 乘积 。 如 果 必 要 的 话 ， 我 们 可 以 用 一 个 稍微 不 同 的 形式 考 碍 加 和 -乘积 算法 ， 即 消去 从 变 
量 结 点 到 因子 结 点 的 信息 ， 仅 考虑 由 因子 结 点 发 送出 的 信息 。 考 虑 图 8.50 中 的 简单 例子 ， 我 们 可 
以 很 容易 地 看 出 这 一 点 。 

目前 为 止 ， 我 们 始终 忽略 了 归 一 化 系数 的 问题 。 如 果 因 子 图 是 从 有 向 图 推导 的 ， 那 么 联合 概 
率 分 布 已 经 正确 地 被 归 一 化 了 ， 因 此 通过 加 和 -乘积 算法 得 到 的 边缘 概率 分 布 会 类 似 地 被 正确 归 


283 
wwaibbt.com DODDDDDOD 


fa fo 
fe 
Tl 
图 8.51: 一 个 简单 的 因子 图 ， 用 来 说 明 加 和 -乘积 算法 。 
人 ce i 人 


T4 TL4 


图 8.52: 应 用 于 图 8.51 给 出 的 图 的 加 和 -乘积 算法 的 信息 流 。(®) 从 叶 结 点 z1 和 zx4 向 根 结 点 3 传递 。(b) 从 根 
结 点 向 叶 结 点 传递 。 


一 化 。 然 而 ， 如 果 我 们 开始 于 一 个 无 向 图 ， 那 么 通常 会 存在 一 个 未 知 的 归 一 化 系数 专 。 与 图 8.38 
给 出 的 简单 例子 相同 ， 通 过 对 未 归 一 化 的 联合 概率 5z) 进 行 操 作 ， 这 个 问题 可 以 很 容易 处 理 ， 
其 中 p(z) = 2 。 首 先 ， 我 们 运行 加 和 -乘积 算法 找到 对 应 的 未 归 一 化 的 边缘 概率 分 布 ilzi)。 之 
后 ， 系 数 记 可 以 很 容易 地 通过 对 任意 一 个 边缘 概率 分 布 进行 归 一 化 的 方式 得 到 。 这 种 计算 很 高 
效 ， 因 为 归 一 化 是 在 单一 变量 上 进行 的 ， 而 不 是 在 整个 变量 集合 上 进行 。 如 果 在 整个 变量 集合 
上 进行 ， 那 么 我 们 就 需要 直接 归 一 化 FLz)。 

现在 ， 考 虑 一 个 简单 的 例子 来 说 明 加 和 -乘积 算法 是 很 有 帮助 的 。 图 8.51 给 出 了 一 个 简单 的 4 
节点 因子 图 ， 它 的 未 归 一 化 联合 概率 分 布 为 





PT) = 请 (z1Z2) 万 (za2,7Z3) (za2,Z4) (8.73) 

为 了 对 这 个 图 应 用 加 和 -乘积 算法 ， 让 我 们 令 结 点 x3 为 根 结 点 ， 此 时 有 两 个 叶 结 点 1 和 xz4。 从 叶 
结 点 开始 ， 我 们 有 下 面 六 个 信息 组 成 的 序列 。 

Hzi 一 六 (Z1) 二 并 (8.74) 

Hfa—7r2 (Z2) 人 x2) (8.75) 

Hzra—fe (x4) 三 1 (8.70) 

Hfe Sr2(T2) = > fc(x2, 24) (8.77) 

Hza 一 记 (zx2) 二 Hfanz2 (Z2) 凡 六 -yza (Z2) (8.78) 

几 记 一 73 (23) = > fo(T2, T3) Hz f, (72) (8.79) 


T2 


信息 流 的 方向 如 图 8.52 所 示 。 一 旦 信息 传播 完成 ， 我 们 就 可 以 将 信息 从 根 结 点 传递 到 叶 结 点 ， 这 
些 信 息 为 





Hzs 一 万 (Z3) = 1 (8.80) 
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几 访 一 72 (22) = >， 万 (Za2,Z3) (8.81) 


Hz 一 疡 (Z2) = Mfr2(T2) Hf 22 (22) (8.82) 
Hfa sri(T1) = > falT1, T2) Hz fa (T2) (8.83) 
Hz f(T2) = Hfa ra(T2) Uf 2 (T2) (8.84) 
ip 0 a) Ss fe a (8.85) 


TX2 


现在 一 个 信息 已 经 在 两 个 方向 上 通过 了 每 个 链接 ， 因 此 我 们 现在 可 以 计算 边缘 概率 分 布 。 作 为 
一 个 简单 的 检验 ， 让 我 们 验证 边缘 概率 分 布 p(x2) 由 正确 的 表达 式 给 出 。 使 用 公式 (8.63) ,使 
用 上 面 的 结果 将 信息 替换 掉 ， 我 们 有 


P22) = po yr2 (THF ra (T2) Hf 2 (72) 


= iene) Po] Po] 
= fal) h(a walf (eo ad) 


2Z1 2Z3 24 


= 


2Z1 2Z3 XA 





(8.80) 


这 与 我 们 预期 的 结果 相同 。 

目前 为 止 ， 我 们 已 经 假定 图 中 所 有 的 变量 都 是 隐 含 变量 。 在 大 多 数 实 际 应 用 中 ， 变 量 的 一 个 
子 集会 被 观测 到 ， 我 们 希望 计算 以 这 些 观 测 为 条 件 的 后 验 概率 分 布 。 观 测 结 点 在 加 和 -乘积 算法 
中 很 容易 人 处理， 如 下 所 述 。 假 设 我 们 将 zx 划 分 为 隐 舍 变量 h 和 观测 变量 vo， 且 v 的 观测 值 被 记 
作 5。 然 后 ， 我 们 简单 地 将 联合 概率 分 布 p(z) 乘 以 [[; 7T(vi, 太 )， 其 中 如 果 v 二 人， 则 7(w,0) = 1， 
否则 I(v,5) = 0。 这 个 乘积 对 应 于 p(h,v = 5)， 因 此 是 p(h | v=) 的 一 个 未 归 一 化 版 本 。 通 过 
运行 加 和 -乘积 算法 ,我们 可 以 高 效 地 计算 后 验 边缘 概率 p(hi | v = 2)， 忽 上 略 归 一 化 系数 。 归 一 
en 个 局 部 的 计算 高 效 地 计算 出 来 。v 中 变量 上 的 任意 求 和 式 就 退化 成 了 单一 
JJ 项 。 

我 们 在 本 节 中 一 直 假 设 我 们 处 理 的 是 离散 变量 。 然 而 ， 无 论 是 加 和 -乘积 算法 的 图 框架 ， 还 
是 算法 的 概率 构建 ， 方 法 都 不 局 限于 离散 变量 。 对 于 连续 变量 ， 求 和 只 需 简 单 地 替换 为 积分 。 
当 我 们 考虑 线性 动态 系统 时 ， 我 们 会 给 出 将 加 和 -乘积 算法 应 用 于 线性 高 斯 变量 的 图 结构 中 的 例 
子 。 

















8.45 最 大 加 和 算法 


加 和 -乘积 算法 使 得 我 们 能 够 将 联合 概率 分 布 pz) 表 示 为 一 个 因子 图 ， 并 且 高 效 地 求 出 成 分 
变量 上 的 边缘 概率 分 布 。 有 两 个 其 他 的 比较 常见 的 任务 ， 即 找到 变量 的 具有 最 大 概率 的 一 个 设 
置 ， 以 及 找到 这 个 概率 的 值 。 这 两 个 任务 可 以 通过 一 个 密切 相关 的 算法 完成 ， 这 个 算法 被 称 为 
最 大 加 和 (max-sum) ， 可 以 被 看 成 动态 规划 (dynamic programming) 在 图 模型 中 的 一 个 应 用 

(Cormen et al., 2001) 。 

一 个 简单 的 寻找 具有 最 大 概率 的 潜在 变量 值 的 方法 是 ， 运 行 加 和 -乘积 算法 ， 得 到 每 个 变量 
的 边缘 概率 分 布 p(z;)， 然 后 ， 反 过 来 对 于 每 个 边缘 概率 分 布 ， 找 到 使 边缘 概率 最 大 的 x 。 然 
而 ， 这 回 给 出 一 组 值 ， 每 个 值 都 单独 取得 最 大 的 概率 。 在 实际 应 用 中 ， 我 们 通常 希望 找到 联合 
起 来 具有 最 大 概率 的 值 的 集合 ， 换 名 话说， 找到 向 量 z 最 大 ， 使 得 联合 概率 分 布 达 到 最 大 值 ， 即 


2z 最 大 一 arg maxD(z) (8.87) 
这 样 ， 联 合 概率 分 布 的 对 应 值 为 _ 
D(z 最 大 ) 一 max p(z) (8.88) 
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表 8.1: 两 个 二 值 变量 上 的 联合 概率 分 布 ， 其 中 联合 概率 分 布 的 最 大 值 出 现 的 位 置 与 两 个 边缘 概率 分 布 的 
最 大 值 出 现 的 位 置 不 同 。 


通 常 ，z 有 与 芝 的 集合 不 同 ， 我 们 会 用 一 个 简单 的 例子 说 明 这 一 点 。 考 虑 两 
个 二 值 变量 zy € {0,1} 上 的 联合 概率 分 布 p(x,y)， 由 表 8.1 给 出 。 通 过 令 z = 1 以 
及 y = 0， 联 合 概 率 分布 被 最 大 化 ， 值 为 04。 然 而 ,通过 对 y 的 值 进 行 求 和 得 到 
的 p(x) 的 边缘 概率 分 布 为 p(z = 0) = 0.6 和 p(x = 1) = 0.4， 类 似 地 , y 的 边缘 概率 分 布 
为 p(y = 0) = 0.7 和 y(y = 1) = 0.3， 因 此 当 z = 0 且 y = 0 时 ， 边 缘 概率 分 布 取 最 大 值 ， 此 时 联合 
人 
概率 为 零 。 

于 是 ， 我 们 寻找 一 个 高 效 的 算法 ， 来 求 出 最 大 化 联合 概率 分 布 z(z) 的 z 的 值 ， 这 会 使 得 我 们 
得 到 在 最 大 值 处 的 联合 概率 分 布 的 值 。 为 了 解决 第 二 个 问题 ， 我 们 只 需 简单 地 写 出 分 量 的 最 大 
值 算 符 ， 即 





maxD(Z) 一 max...maxD(z) (8.89) 


1 TM 


其 中 M 是 变量 的 总 数 。 之 后 ， 使 用 p(z) 的 用 因子 乘积 形式 表示 的 展开 式 替 换 pz(z) 即 可 。 在 推导 
加 和 -乘积 算法 时 ， 我 们 使 用 了 乘法 的 分 配 律 (8.53) 。 这 里 ， 我 们 使 用 最 大 化 算 符 的 类 似 定律 


max(ab, ac) = a max(b, c) (8.90) 


这 对 于 a > 0 的 情形 成 立 (这 对 于 图 模型 的 因子 总 成 立 ) 。 这 使 得 我 们 交换 乘积 与 最 大 化 的 顺 
序 。 
首先 考虑 公式 (8.49) 描述 的 结 点 链 这 一 简单 的 例子 。 概 率 最 大 值 的 计算 可 以 写成 


1 
max p(x) = 三 max:..max|yi2(7T1, 72) "WN_LN(TN-1, TN)] 
人 ZZ zl ZN 


Z1 


二 到 max ee [eal es) | maxyw_iwew_nazn| | 


正如 边缘 概率 的 计算 一 样 ， 我 们 看 到 交换 最 大 值 算 符 和 乘积 算法 会 产生 一 个 更 高 效 的 计算 ， 并 
且 更 容易 表示 为 从 结 点 ZN 沿 着 结 点 链 传递 回 结 点 Z1 的 信息 。 

我 们 可 以 将 这 个 结果 推广 到 任意 树 结构 的 因子 图 上 ， 推 广 的 方法 为 : 将 因子 图 表达 式 
(8.59) 代入 公式 (8.89) 中 ， 然 后 交换 乘积 与 最 大 化 的 计算 顺序 。 这 种 计算 的 结构 与 加 和 -乘积 
算法 完全 相同 ， 因 此 我 们 能 够 简单 地 将 那些 结果 转化 到 当前 的 问题 中 。 特 别 地 ， 假 设 我 们 令 图 
中 的 一 个 特定 的 变量 结 点 为 根 结 点 。 之 后 ， 我 们 计算 起 始 的 一 组 信息 ， 然 后 从 树 的 叶 结 点 向 内 
部 传递 到 根 结 点 。 对 于 每 个 结 点 ， 一 旦 它 接 收 到 来 自 其 他 相 邻 结 点 的 输入 信息 ， 那 么 它 就 向 根 
结 点 发 送信 息 。 最 后 对 所 有 到 达 根 结 点 的 信息 的 乘积 进行 最 大 化 ， 得 出 p(x) 的 最 大 值 。 这 可 以 
被 称 为 最 大 化 乘积 算法 (max-produce algorithm) ， 与 加 和 -乘积 算法 完全 相同 ， 唯 一 的 区 别 是 
人 

在 实际 应 用 中 ， 许 多 小 概率 的 乘积 可 以 产生 数值 下 溢 的 问题 ， 因 此 更 方便 的 做 法 是 对 联合 概 
率 分 布 的 对 数 进行 操作 。 对 数 函 数 是 一 个 单调 函数 ， 因 此 如 果 a > bp， 那 么 Ina > lInb， 因 此 求 最 
大 值 的 运算 符 可 以 与 取 对 数 的 运算 交换 顺序 ， 即 








ln (maxp(z)) = max ln p(x) (8.91) 
分 配 性 质 仍然 成 立 ， 因 为 
max(a+b,at+c)= a+t+max(b,c) (8.92) 
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所 以 取 对 数 的 唯一 效果 是 把 最 大 化 乘积 算法 中 的 乘积 替换 成 了 加 和 ， 因 此 我 们 得 到 了 最 大 化 加 
和 算法 (max-sum algorithm) 。 根 据 之 前 在 加 和 -乘积 算法 中 得 到 的 公式 (8.66) 和 公式 (8.69) 
给 出 的 结果 ， 我 们 可 以 基于 信息 传递 写 出 最 大 化 加 和 算法 ， 只 需 把 加 和 替换 为 最 大 化 ， 
把 乘积 替换 为 对 数 求 和 即 可 。 结 果 为 











APyz(Z) = 地 ln fz, TL1,...， TM) 让 >， Hzm Sf (Tm) (8.93) 
了 mEne( 站 Na 
Hz f(T) = > AP yz(Z) (8.94) 
LEne(Z)N7 
最 开始 的 由 叶 结 点 发 送 的 信息 可 以 通过 类 比 公 式 (8.70) 和 公式 (8.71) 得 到 ， 结 果 为 
Hz_yF(Z) 三 0 (8.95) 
Hf sz(7) = ln f(2) (8.90) 
而 在 根 结 点 处 的 最 大 概率 可 以 通过 类 比 公 式 (8.63) 得 到 ， 结 果 为 
2 最 大 = max > mi (8.97) 
sEne(Z) 
目前 为 止 ， 我 们 已 经 看 到 了 如 何 通 过 从 叶 结 点 到 任意 选择 的 根 结 点 传递 信息 的 方式 找到 联合 
概率 分 布 的 最 大 值 。 这 个 结果 与 根 结 点 的 选择 无 关 。 现 在 ， 我 们 转向 第 二 个 问题 ， 即 寻找 联合 
概率 达到 最 大 值 的 变量 的 配置 。 目 前 ， 我 们 已 经 将 信息 从 叶 结 点 发 送 到 了 根 结 点 。 计 算 公 式 
(8.97) 的 过 程 也 会 得 到 根 结 点 变量 的 概率 最 高 的 值 z 最 K ， 定 义 为 
ZX 最 大 一 arg max >， we (8.98) 
SsEne(Z) 





现在 ， 我 们 可 能 试图 简单 地 继续 使 用 信息 传递 方法 ， 使 用 公式 (8.93) 和 公式 〈8.94) ， 将 信息 
从 根 结 点 传 回 叶 结 点 ， 然 后 将 公式 (8.98) 应 用 于 所 有 剩余 的 变量 结 点 。 然 而 ， 由 于 我 们 现在 进 
行 的 是 最 大 化 过 程 而 不 是 求 和 过 程 ， 因 此 有 可 能 存在 多 个 z 的 配置 ， 它 们 都 会 给 出 pz(z) 的 最 大 
值 。 在 这 种 情况 下 ， 这 个 策略 就 失效 了 ， 因 为 通过 对 属于 不 同 的 最 大 化 配置 的 每 个 结 点 处 的 信 
息 的 乘积 进行 最 大 化 得 到 的 各 个 变量 值 可 能 给 出 一 个 并 不 对 应 于 最 大 值 的 整体 配置 。 

通过 使 用 一 个 从 根 结 点 到 叶 结 点 的 一 个 相当 不 同 的 信息 传递 方式 ， 这 个 问题 可 以 得 到 解决 。 
为 了 说 明 工作 原理 ， 证 我 们 再 次 回 到 简单 的 结 点 链 的 例子 中 ， 其 中 有 个 变量 z1, .… ,ZN， 每 个 
变量 有 天 个 状态 ， 对 应 于 图 8.38 所 示 的 图 。 假 设 我 们 令 结 点 zw 是 根 结 点 。 那 么 在 第 一 阶段 ， 我 
们 从 叶 结 点 x1 开始 ， 将 信息 传递 到 根 结 点 ， 使 用 下 面 的 公式 


Hern fnnt1 (xn) Hfn_ino rn (Xn) 


Hfn_1n2rn (zn) Ea maa lit fini( Dra, Th 二 Hzn 1 一 万 -1n (Zn_1)] 





将 公式 8.94) 和 公式 (8.93) 应 用 到 这 个 特定 的 图 上 即 可 得 到 上 面 的 结果 。 叶 结 点 发 送 的 初始 
信息 为 
HUzi Pa(Z1) = 0 (8.99) 


这 样 ，zN 的 概率 最 高 的 值 为 


7 最 一 arg max ee (ZN)] (8.100) 
LN 
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口 
口 


有 一 2 n—1 Nn n+l1 


图 8.53: 一 个 晶 格 图 ， 或 者 格子 图 ， 显 式 地 画 出 了 结 点 链 模型 中 每 个 变量 zn 的 天 个 可 能 的 状态 (图 中 的 每 
一 行 表示 一 个 状态 ) 。 在 这 个 例子 中 , 天 = 3。 箭 头 表示 在 最 大 乘积 算法 中 信息 传播 的 方向 。 对 于 每 个 
变量 z,，( 对 应 于 图 中 第 n 列 ) 的 每 个 状态 Xk， 函 数 9(zn) 定 义 了 之 前 变量 的 一 个 唯一 的 状态 ， 用 黑 线 表 
示 。 穿 过 晶 格 的 两 条 路 径 对 应 于 能 够 得 到 联合 概率 分 布 最 大 值 的 配置 ， 每 一 条 路 径 都 可 以 沿 着 黑 线 ， 按 
照 箭 头 的 相反 方向 反 向 跟踪 的 方式 找到 。 








现在 我 们 需要 确定 对 应 于 同样 的 最 大 化 配置 的 前 一 个 变量 的 状态 。 可 以 这 样 做 : 跟踪 变量 的 哪 
个 值 产生 了 每 个 变量 的 最 大 值 状态 ， 即 存储 下 面 的 量 


$b(zn) = argmax [ln fn_1n(Tn_ 1 Tn) + Wrayfa in (Tn 1)| (8.101) 


Tn—l 





为 了 更 好 地 理解 工作 过 程 ， 比 较 有 帮助 的 做 法 是 将 变量 链表 示 为 唱 格 图 (lattice diagram) 或 者 
格子 图 (trellis diagram) ， 如 图 8.53 所 示 。 注 意 ， 这 不 是 一 个 概率 图 模型 ， 因 为 结 点 表示 变量 的 
独立 状态 ， 而 每 个 变量 对 应 于 图 中 这 个 状态 的 一 列 。 对 于 给 定 变 量 的 每 个 状态 ， 存 在 前 一 个 变 
量 的 一 个 唯一 的 状态 使 得 概率 取 最 大 值 ， 对 应 于 公式 (8.101) 给 出 的 函数 %zn)， 这 通过 连接 结 
点 的 线 表示 。 一 旦 我 们 知道 了 最 终结 点 Zv 的 最 可 能 的 值 ， 我 们 就 可 以 沿 着 链接 回 退 ， 找 到 结 
点 ZN_1 的 最 可 能 状态 ， 并 且 以 此 类 推 ， 回 到 最 初 的 结 点 zi。 这 对 应 于 将 信息 沿 着 链 进 行 反方 向 
的 传递 ， 使 用 下 面 的 公式 





Zz 最 大 一 %(z 最 大 ) (8.102) 


被 称 为 反 向 跟踪 (back-tracking) 。 注 意 ， 可 能 存在 多 个 zn_1 的 值 ， 每 个 都 能 给 出 公式 
(8.101) 的 最 大 值 。 在 进行 反 向 跟踪 时 ， 只 要 我 们 选择 了 这 些 变量 中 的 一 个 ， 那 么 我 们 就 能 
保证 得 到 一 个 全 局 相 容 的 最 大 化 配置 。 

在 图 8.53 中 ， 我 们 画 出 了 两 条 路 径 。 对 于 每 条 路 径 ， 我 们 都 假设 对 应 于 联合 概率 分 布 的 一 个 
全 局 最 大 值 。 如 果 = 2 和 k = 3 都 表示 zx 世 的 可 能 值 ， 那 么 从 任意 一 个 状态 开始 沿 着 黑 线 回 退 
(对 应 于 公式 (8.102) 的 迷 代 ) ， 我们 都 可 以 得 到 一 个 合法 的 全 局 最 大 值 配置 。 注 意 ， 如 果 我 
们 运行 一 个 正 向 的 最 大 加 和 信息 传递 ， 然 后 运行 一 个 反 向 的 传递 ， 之 后 对 每 个 节点 分 别 应 用 公 
式 (8.98) ， 那 么 我 们 最 后 会 从 一 条 路 径 中 选 出 某 些 状态 ， 从 另 一 条 路 径 中 选 出 另外 一 些 状 
态 ， 得 到 一 个 并 非 为 全 局 最 大 值 的 整体 配置 。 我 们 看 到 ， 有 必要 在 正 向 信息 传递 时 ， 使 用 函 
数 d%(zn) 对 最 大 化 状态 进行 跟踪 ， 然 后 使 用 反 向 跟踪 找到 一 个 相 容 的 解 。 

现在 ， 推 广 到 一 般 的 树 形 结构 因子 图 的 方法 就 比较 明显 了 。 如 果 一 条 信息 从 因子 结 点 j 发 
送 到 变量 结 点 z+， 那么 最 大 化 针对 的 是 因子 结 点 的 全 部 其 他 变量 结 点 x1,...,Xm， 使 用 公 
式 (8.93) 。 当 我 们 进行 这 个 最 大 化 时 ， 我们 记录 了 给 出 最 大 值 的 变量 x1,...,zm 的 值 。 这 
样 ， 找 到 了 xz 县 之 后 ， 我 们 在 反 向 跟踪 步骤 中 可 以 使 用 这 些 存 储 的 值 ， 为 相 容 的 最 大 状 
态 z 弄 大,... ,zx 车 大 的 值 。 只 要 因子 图 是 树 ， 最 大 加 和 算法 以 及 反 向 跟踪 方法 就 可 以 给 出 变量 的 精 
确 最 大 化 配置 。 这 种 方法 的 一 个 重要 应 用 是 寻找 隐 马 尔 科 夫 模型 中 隐 含 状态 的 最 可 能 序列 ， 这 
种 情况 下 被 称 为 Viterbi 算 法 。 

与 加 和 -乘积 算法 一 样 ， 引 入 观测 变量 是 很 直接 的 。 观 测 变量 被 限制 为 它们 的 观测 值 ， 最 大 
化 过 程 针 对 剩余 的 隐 含 变量 进行 。 形 式 化 地 ， 可 以 通过 引入 恒 等 函 数 的 方式 ， 将 观测 变量 引入 
到 因子 函数 中 ， 正 如 我 们 之 前 在 加 和 -乘积 算法 中 做 的 那样 。 
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将 最 大 加 和 算法 与 8.3.3 节 描述 的 迭代 条 件 峰 值 算 法 (ICM) 进行 对 比 是 很 有 趣 的 。ICM 中 的 
每 一 步 计算 都 比较 简单 ， 因 为 从 一 个 结 点 传递 到 下 一 个 结 点 的 信息 由 一 个 包含 结 点 新 状态 的 
单一 值 组 成 。 对 于 这 个 结 点 ， 条 件 概率 分 布 被 最 大 化 。 最 大 化 加 和 算法 更 加 复杂 ， 因 为 信息 是 
结 点 变量 z 的 函数 ， 从 而 由 z 的 可 能 状态 的 天 个 值 组 成 。 然 而 ， 与 最 大 化 加 和 算法 不 同 ， 即 使 对 
于 树 结 构 的 图 ，ICM 也 无 法 保证 找到 一 个 全 局 的 最 大 值 。 








8.4.6 一 般 图 的 精确 推 源 


加 和 -乘积 算法 和 最 大 化 加 和 算法 提供 了 树 结构 图 中 的 推断 问题 的 高 效 精确 解法 。 然 而 ， 对 
于 许多 实际 应 用 ， 我 们 必须 处 理 带 有 环 的 图 。 

信息 传递 框架 可 以 被 推广 到 任意 的 图 折 扑 结构 ， 从 而 得 到 一 个 精确 的 推断 步 又， 被 称 为 联合 
树 算法 (junction tree algorithm) (Lauritzen and Spiegelhalter, 1988; Jordan, 2007) 。 这 里 ， 我 们 
简短 地 给 出 算法 的 关键 步 又。 这 里 不 打算 给 出 算法 的 细节 ， 而 是 给 出 各 个 阶段 的 大 致 思想 。 如 
果 我 们 的 起 始点 是 一 个 有 向 图 ， 那 么 我 们 首先 通过 伦理 步骤 ， 将 其 转化 为 无 向 图 。 而 如 果 起 
始点 是 无 向 图 ,那么 这 个 步骤 就 不 需要 了 。 接 下 来 ， 图 被 三 角 化 (triangulated) ， 这 涉及 到 
寻找 包含 四 个 或 者 更 多 结 点 的 无 统 环 ， 然 后 增加 额外 的 链接 来 消除 无 芒 环 。 例 如 ， 在 图 8.36 
所 示 的 图 中 , 环 4 一 C 一 B 一 D 一 4 是 一 个 无 弦 环 ， 从 而 一 个 连接 应 该 添加 到 在 4 和 B 之 间或 
者 C 和 DD 之 间 。 注 意 ， 三 角 化 后 的 图 的 联合 概率 分 布 仍然 由 同样 的 势 函 数 乘积 定义 ， 但 是 这 些 
势 函 数 现在 被 看 做 是 扩展 的 变量 集合 上 的 势 函 数 。 接 下 来 ， 三 角 化 的 图 被 用 于 构建 新 的 树 结构 
无 向 图 ， 被 称 为 联合 树 (junction tree) ， 它 的 结 点 对 应 于 三 角 化 的 图 的 最 大 团 块 ， 它 的 链接 将 
具有 相同 变量 的 团 块 对 连接 在 了 一 起 。 这 种 方法 中 连接 哪 对 团 块 是 很 重要 的 问题 。 正 确 的 做 法 
是 选择 能 得 到 最 大 生成 树 (maximal spanning tree) 的 连接 方式 ， 如 下 所 述 。 对 于 连接 了 某 个 团 
块 的 所 有 可 能 的 树 ， 被 选择 的 树 是 树 的 权 值 最 大 的 一 个 ， 其 中 链接 的 权 值 是 由 它 所 连接 的 两 个 
团 块 所 共享 的 结 点 的 数量 ， 树 的 权 值 是 链接 的 权 值 之 和 。 由 于 三 角 化 步骤 的 存在 ， 得 到 的 树 满 
足 运 行 相交 性 质 (running intersection property) ， 意 思 是 如 果 一 个 变量 被 两 个 团 块 所 包含 ， 那 
么 它 必须 也 被 连接 这 两 个 团 块 的 路 径 上 的 任意 团 块 所 包含 。 这 确保 了 变量 推断 在 图 之 间 是 相 容 
的 。 最 后 ， 一 个 二 阶段 的 信息 传递 算法 ， 或 者 等 价 的 加 和 -乘积 算法 ， 现 在 可 以 被 应 用 于 这 个 联 
合 树 ， 得 到 边缘 概率 分 布 和 条 件 概 率 分 布 。 虽 然 联合 树 算 法 听 起 来 比较 复杂 ， 但 是 它 的 核心 是 
一 个 简单 的 想法 。 我 们 已 经 利用 这 个 想法 研究 了 概率 的 分 解 性 质 ， 使 得 加 和 与 乘积 能 够 相互 交 
换 ， 从 而 可 以 进行 部 分 求 和 ， 避 免 了 直接 对 联合 概率 分 布 的 操作 。 联 合 树 的 作用 是 提供 一 种 组 
织 这 些 计算 的 精确 高 效 的 方法 。 值 得 注意 的 是 ， 这 些 完全 是 通过 图 操作 实现 的 ! 

联合 树 对 于 任意 的 图 都 是 精确 的 、 高 效 的 。 对 于 一 个 给 定 的 图 ， 通 常 不 存在 计算 代价 更 低 的 
算法 。 不 幸 的 是 ， 算 法 必须 对 每 个 结 点 的 联合 概率 分 布 进行 操作 (每 个 结 点 对 应 于 三 角 化 的 图 
的 一 个 团 块 ) ， 因 此 算法 的 计算 代价 由 最 大 团 块 中 的 变量 数量 确定 。 在 离散 变量 的 情形 中 ， 计 
算 代 价 会 随 着 这 个 数量 指数 增长 。 一 个 重要 的 概念 是 图 的 树 宽 度 (treewidth) (Bodlaender, 
1993) ， 它 根据 最 大 团 块 中 变量 的 数量 进行 定义 。 事 实 上 ， 它 被 定义 为 最 大 团 块 的 规模 减 一 ， 
来 确保 一 个 树 的 树 宽度 等 于 1。 由 于 通常 情况 下 ， 从 一 个 给 定 的 起 始 图 开始 ， 可 以 构建 出 多 种 不 
同 的 联合 树 ， 因 此 树 宽 度 由 最 大 团 块 具有 最 少 变量 的 联合 树 来 定义 。 如 果 原 始 图 的 树 宽 度 比较 
大 ， 那 么 联合 树 算法 就 变 得 不 可 行 了 。 




















8.4.7 循环 置信 传播 


对 于 许多 实际 应 用 问题 来 说 ， 使 用 精确 推 新 是 不 可 行 的 ， 因 此 我 们 需要 研究 有 效 的 近似 
方法 。 这 种 近似 方法 中 ， 一 个 重要 的 类 别 被 称 为 变 分 (variational) 方法 ， 将 在 第 10 章 详细 讨 
论 。 作 为 这 些 确 定性 方法 的 补充 ， 有 一 大 类 取样 (sampling) 方法 ， 也 被 称 为 蒙特 卡 罗 (Monte 
Carlo) 方法 。 这 些 方法 基于 从 概率 分 布 中 的 随机 数值 取样 ， 将 在 第 11 章 中 详细 讨论 。 

这 里 ， 我 们 考虑 带 有 环 的 图 中 的 近似 推断 的 一 个 简单 方法 ， 它 直接 依赖 于 之 前 对 树 的 精确 推 
断 的 讨论 。 主 要 思想 就 是 简单 地 应 用 加 和 -乘积 算法 ， 即 使 不 保证 能 够 产生 好 的 结果 。 这 种 方法 
被 称 为 循环 置信 传播 (loopy belief propagation) (Frey and MacKay, 1998) 。 这 种 方法 是 可 行 
的 ， 因 为 加 和 -乘积 算法 的 信息 传递 规则 (8.66) 和 (8.69) 完全 是 局 部 的 。 然 而 ， 由 于 现在 图 中 
存在 环 ， 因 此 信息 会 绕 着 图 流动 多 次 。 对 于 某 些 模型 ， 算 法 会 收敛 ， 而 对 于 其 他 模型 则 不 会 。 
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为 了 应 用 这 种 方法 ， 我 们 需要 定义 一 个 信息 传递 时 间 表 (message passing schedule) 。 让 我 
们 假设 在 任意 给 定 的 链接 以 及 任意 给 定 的 方向 上 ， 每 次 传递 一 条 信息 。 从 一 个 结 点 发 送 的 每 条 
信息 蔡 换 了 之 前 发 送 的 任何 沿 着 同一 链接 的 同一 方向 的 信息 ， 并 且 本 身 是 一 个 函数 ， 这 个 函数 











只 与 算法 的 前 一 步 的 结 点 接收 到 的 最 近 的 信息 有 关 。 
我 们 已 经 看 到 ， 只 有 当 结 点 从 所 有 其 他 的 链接 接收 到 所 有 其 他 的 信息 之 后 ， 它 才 会 沿 着 一 条 


链接 发 送信 息 。 由 于 图 中 存在 环 ， 因 此 这 就 产生 了 如 何 初始 化 信息 传递 算法 的 问题 。 为 了 解决 
这 个 问题 ， 我 们 假设 由 单位 函数 给 出 的 初始 信息 已 经 在 所 有 方向 上 通过 了 每 个 链接 。 这 样 ， 每 
个 结 点 都 处 在 了 发 送信 息 的 位 置 上 。 

现在 有 许多 可 能 的 方法 来 组 织 信息 传递 时 间 表 。 例 如 ， 洪 水 时 间 表 (flooding schedule) 在 
每 一 步 同 时 向 两 个 方向 沿 着 每 条 链接 同时 传递 信息 ， 而 每 次 只 传递 一 个 信息 的 时 间 表 被 称 为 连 
续 时 间 表 (serial schedule) 。 

根据 Kschischnang et al (2001) ， 对 于 结 点 (变量 结 点 或 因子 结 点 ) a 和 结 点 0?， 如 果 a 自 从 
上 次 向 0 发 送信 息 后 ， 从 任何 其 他 的 链接 接收 到 了 任何 信息 ， 那 么 我 们 说 结 点 a 在 到 结 点 b 的 链接 
上 有 一 个 信息 挂 起 (pending) 。 因 此 ， 当 一 个 结 点 接收 到 了 它 的 一 个 链接 发 送 的 信息 ， 就 在 所 
有 其 他 的 链接 上 产生 了 挂 起 的 信息 。 只 有 挂 起 的 信息 需要 被 传送 ， 因 为 其 他 的 信息 仅 仪 复制 了 
同样 链接 上 的 前 一 条 信息 。 对 于 具有 树 结构 的 图 来 说 ， 任 何 只 发 送 挂 起 信息 的 时 间 表 最 后 会 终 
止 于 一 条 在 任意 方向 上 沿 着 任意 链接 发 送 过 的 信息 。 此 时 ， 没 有 挂 起 信息 ， 并 且 每 个 变量 接收 
到 的 信息 给 出 了 精确 的 边缘 概率 分 布 。 然 而 ， 在 具有 环 的 图 中 ， 算 法 永远 不 会 终结 ， 因 为 总 可 
能 存在 挂 起 信息 ， 虽 然 在 实际 应 用 中 发 现 ， 对 于 大 部 分 应 用 ， 它 都 会 在 一 个 合理 的 时 间 内 收 
伍 。 一 旦 算法 收敛 ,或 者 如 果 未 观测 到 收敛 时 算法 停止 ， 那么 (近似) 局 部 边缘 概率 分 布 可 以 
使 用 每 条 链接 上 的 每 个 变量 结 点 或 因子 结 点 最 近 接收 到 的 输入 信息 的 乘积 进行 计算 。 

在 一 些 应 用 中 ,循环 置信 传播 算法 会 给 出 很 差 的 结果 ， 而 在 其 他 应 用 中 ， 它 被 证 明 非 常 有 
效 。 特 别 地 ， 对 特定 类 型 的 误差 修正 编码 的 最 好 的 解码 算法 等 价 于 循环 置信 传播 算法 (Gallager, 
1963; Berrou et al., 1993; McEliece et al., 1998; MacKay and Neal, 1999; Frey, 1998) 。 




















8.4.8 ”学 习 图 结构 


在 我 们 关于 图 模型 的 推断 的 讨论 中 ， 我 们 假设 图 的 结构 已 知 且 固定 。 然 而 ， 也 有 一 些 研 究 超 
出 了 推断 问题 的 范围 ， 关 注 于 从 数据 推断 图 结构 本 身 (Friedman and Koller 2003) 。 这 需要 我 
们 定义 一 个 可 能 结构 的 空间 ， 以 及 用 于 对 每 个 结构 评分 的 度量 。 

从 贝 叶 斯 的 观点 来 看 ， 理 想 情况 下 ， 我 们 需要 计算 图 结构 上 的 后 验 概率 分 布 ， 然 后 关于 概率 
0 0 8 0 RE 0 0 





pm | D) x p(m)p(D | m) (8.103) 


其 中 DD 是 一 个 观测 数据 集 。 模 型 证 据 p(D | m) 提 供 了 每 个 模型 的 分 数 。 然 而 ， 计 算 模 型 证 据 涉 及 
到 对 潜在 变量 的 积分 或 求 和 ， 这 对 于 许多 模型 来 说 是 一 个 计算 量 相 当 大 的 问题 。 

探索 图 结构 的 空间 也 是 一 个 问题 。 由 于 不 同 图 结构 的 数量 随 着 结 点 数量 的 增加 而 指数 增长 ， 
因此 通常 需要 借助 局 发 式 方法 找到 好 的 候选 。 


8.5 ”练习 


(8.1) (*) 通过 按 顺 序 将 变量 积分 出 去 的 方式 ， 证 明 有 向 图 的 联合 概率 分 布 的 表达 式 
(8.5) 被 正确 地 归 一 化 ， 假 设 每 个 条 件 概率 分 布 都 被 归 一 化 。 

(8.2) (*) 证 明 ， 有 向 图 中 没有 有 向 环 的 性 质 可 以 由 下 面 的 叙述 得 出 : 存在 一 个 排序 后 的 
结 点 序号 序列 ， 使 得 对 于 每 个 结 点 ， 不 存在 通 向 序号 较 低 的 结 点 的 链接 。 

(83) (Cs%) 考虑 三 个 二 值 变量 bc e {0,1}， 联 合 概率 分 布 如 表 8.2 所 示 。 通 过 直接 计 
算 ， 证 明 这 个 概率 分 布 中 ，a 和 5b 的 边沿 概率 分 布 不 是 独立 的 ， 即 p(a,0) 了 p(a)p(b)， 但 是 当 
以 c 为 条 件 时 ， 它 们 变 为 独立 ， 即 对 于 c = 0 和 c = 1， 都 有 p(a,b| c) =p(a | c)p(b|o)。 

(8.4) (*) 计算 与 表 8.2 给 出 的 联合 概率 分 布 相 对 应 的 p(a),p(b | c) 和 p(c | a)。 从 而 ， 通 过 
直接 计算 证 明 p(a,5,c) = p(a)p(c| a)p(b|c)。 夯 出 对 应 的 有 向 图 。 

(8.5) (*) 画 一 个 与 公式 (7.79) 和 “【〔7.80) 描述 的 相关 向 量 机 相对 应 的 有 向 概率 图 模型 。 
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p(a, b,c) 
0.192 
0.144 
0.048 
0.216 
0.192 
0.064 
0.048 
0.096 





一 一 一 一 品 避 忆 避 |S 
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SY 





表 8.2: 不 同 阶 数 的 多 项 式 的 系数 w* 的 值 。 观 察 随 着 多 项 式 阶 数 的 增加 ， 系 数 的 大 小 是 如 何 剧 烈 增 大 的 。 


a b 


d 


图 8.54: 用 来 研究 头 到 头 路 径 a 一 c 一 b 的 条 件 独立 性 质 的 图 模型 ， 其 中 c 的 一 个 后 代 即 结 点 d 被 观测 到 。 





(8.6) (*) 对 于 图 8.13 所 示 的 模型 ,我们 看 到 ， 使 用 logistic sigmoid 的 表示 方法 ， 确 定 条 件 
概率 分 布 p(y | 1， ,TM) 的 参数 的 数量 可 以 从 2 并 减 小 到 M 十 工 ， 其 中 局 E€ {0， 1}。 另 一 种 表示 
方法 (Pearl 1988) 为 


M 


p(y=1|z1..., 27M) =1- (1 p01 0 wn)” (8.104) 
2 一 1 


其 中 0 < jw < 1(i = 0,...,M)。 条 件 概率 分 布 (8.104) 被 称 为 噪声 或 ”(noisy-OR) 。 证 明 ， 
它 可 以 被 看 成 逻辑 或 函数 〈 即 至 少 有 一 个 zl = 1 时 会 得 到 y = 1 的 函数 ) 的 一 个 “ 软 ”( 概 率 ) 形 
式 。 讨 论 几 的 意义 。 

(87) “(**] 使 用 递归 关系 (8.15) 和 (8.16) ， 证 明 图 8.14 给 出 的 图 模型 的 联合 概率 分 布 的 
均值 和 协 方差 分 别 为 (8.17) 和 (8.18) 。 

(8.8) (*) 证 明 a 荆 b,c|d 可 以 推导 出 a 5|d。 

(8.9) (*) 使 用 d- 划 分 准则 ,证 明 对 于 有 向 图 中 的 一 个 结 点 zs， 以 马尔 科 夫 悉 中 的 所 有 结 点 
为 条 件 ， 它 的 条 件 概率 分 布 与 图 中 剩余 的 变量 独立 。 

(8.10) (*) 考虑 图 8.54 中 的 有 向 图 ， 其 中 没有 观测 变量 。 证 明 a 451 0。 假设 我 们 现在 观 
测 到 了 变量 d。 证 明 一 般 情况 下 a 0 | d。 

(8.11) (**) 考虑 图 8.21 给 出 的 汽车 燃料 系统 的 例子 。 假 设 我 们 不 直接 观测 到 油 量 计 G 的 状 
态 ， 而 是 由 司机 DD 观测 ， 然 后 向 我 们 报告 读数 。 报 告 要 么 是 油 量 计 的 读数 为 “ 满 *"D = 1， 要 么 是 
油 量 计 的 读数 为 空 7D = 0。 我 们 的 司机 有 些 不 可 靠 ， 正 如 下 面 的 概率 所 表示 的 那样 


p(D=1|G=1)=0.9 (8.105) 








p(D=0|G=0)=0.9 (8.100) 
假设 司机 告诉 我 们 油 量 计 的 读数 是 空 的 ， 换 句 话 说 我 们 观测 到 D = 0。 只 给 定 这 个 观测 ， 计 算 
油箱 为 空 的 概率 。 类 似 地 ， 假 设 我 们 还 观测 到 电池 没有 电 ， 计 算 对 应 的 给 虽 。 注 意 ， 第 二 个 概 
率 更 低 。 讨 论 这 个 结果 背后 的 直观 思想 ， 将 这 个 结果 与 图 8.54 相 关联 。 
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(8.12) (*) 证 明 在 M 个 不 同 的 随机 向 量 组 成 的 集合 上 ， 存 在 2Y(Y-I72 个 不 同 的 随机 变 
量 。 画 出 M = 3 情形 下 的 8 个 概率 。 

(8.13) (*) 考虑 使 用 迭代 条 件 峰 值 (ICM) 来 最 小 化 公式 (8.42) 给 出 的 能 量 函数 。 写 出 
与 一 个 特定 变量 z; 相 关联 的 两 个 状态 的 能 量 值 之 差 的 表达 式 ， 保 持 所 有 其 他 的 变量 固定 。 证 
明 ， 这 个 值 仅仅 依赖 于 图 中 局 部 在 zj 的 量 。 

(8.14) (*) 考虑 公式 (8.42) 给 出 的 能 量 函 数 的 一 个 特定 的 形式 ， 其 中 系数 8 = 二 0。 证 
明 潜在 变量 的 概率 最 高 的 配置 为 x; = y (对 于 所 有 的 i) 。 


(8.15) (*) 证 明 图 8.38 所 示 的 图 中 两 个 相 邻 结 点 的 联合 概率 分 布 p(xn-1,zn) 由 形 如 
(8.58) 的 表达 式 给 出 。 
(8.16) ”(**) 对 于 图 8.38 中 的 图 ， 对 于 所 有 结 点 % E {1,.…., NN 一 1}， 考 虑 计算 p(zn | ZN) 的 





推断 问题 。 证 明 8.4.1 节 讨论 的 信息 传递 算法 可 以 高 效 地 解决 这 个 问题 。 讨 论 哪 些 信 息 被 修改 ， 
如 何 修改 。 

(8.17) (*) 考虑 图 8.38 给 出 的 图 ， 结 点 数 为 N = 5， 结 点 z3 和 zs 被 观测 。 使 用 d- 划 分 证 
明 z2 上 zs5 | za。 证 明 ， 如 果 8.4.1 节 的 信息 传递 算法 被 应 用 于 p(zs | x3, 5) 的 计算 ,那么 结果 独立 
于 x5 的 值 。 

(8.18) ” (**) 证 明 有 向 树 表 示 的 概率 分 布 可 以 简单 地 写成 对 应 的 无 向 树 上 的 一 个 等 价 的 概 
率 分 布 。 并 且 证 明 ， 通 过 对 团 块 势 函 数 进行 适当 的 归 一 化 ， 表 示 为 无 向 树 的 概率 分 布 可 以 写成 
有 向 树 。 计 算 可 以 从 给 定 的 无 向 树 构建 的 不 同 的 有 向 树 的 数量 。 

(8.19) ”GY*) 将 8.4.4 节 讨论 的 加 和 -乘积 算法 应 用 到 8.41 节 讨论 的 结 点 链 模 型 ， 证 明 

(8.54) 、 (8.55) 和 (8.57) 给 出 的 结果 可 以 作为 一 种 具体 的 情形 被 求 出 。 

(8.20) (*) 考虑 树 结 构 的 因子 图 上 的 加 和 -乘积 算法 的 信息 传递 协议 ， 其 中 信息 首先 从 叶 
结 点 传递 到 一 个 任意 选择 的 根 结 点 ， 然 后 从 根 结 点 向 外 传递 到 叶 结 点 。 使 用 归纳 法 证 明 信 息 可 
以 用 下 面 的 方式 传递 : 在 每 一 个 步骤 中 ， 每 个 必须 发 送信 息 的 结 点 已 经 接收 到 了 用 来 构建 输出 
信息 的 所 有 必要 的 输入 信息 。 

(8.21) ”GC*) 证 明 ， 在 一 个 因子 图 中 ， 与 每 个 因子 六 (z。) 相 关联 的 变量 z。 的 集合 上 的 边 
缘 概 率 分 布 pz(zs) 可 以 用 下 面 的 方式 求 出 : 首先 运行 加 和 -乘积 信息 传递 算法 ， 然 后 使 用 公式 

(8.72) 计算 所 需 的 边缘 概率 分 布 。 

(8.22) (*) 考虑 一 个 树 结 构 的 因子 图 ， 其 中 变量 结 点 的 一 个 给 定 的 子 集 组 成 了 一 个 连接 子 
图 ( 即 子 集 的 任意 变量 结 点 都 通过 一 个 单一 的 因子 结 点 与 至 少 一 个 其 他 的 变量 结 点 相连 接 ) 。 
说 明 如 何 使 用 加 和 乘积 算法 来 计算 在 这 个 子 集 上 的 边缘 概率 分 布 。 

(8.23) (if) 在 8.4.4 节 ， 我 们 证 明了 因子 图 中 的 一 个 变量 结 点 zx; 的 边缘 概率 分 布 p(xi) 等 于 
从 相 邻 因子 结 点 到 这 个 结 点 的 信息 的 乘积 ， 形 式 为 (8.63) 。 证 明 边 缘 概 率 分 布 p(xi) 也 可 以 写 
成 输入 信息 的 乘积 ， 输 入 信息 所 在 的 链接 与 输出 信息 所 在 的 链接 相同 。 

(8.24) ”Gx*) 证 明 ， 在 运行 了 加 和 -乘积 信息 传递 算法 之 后 ， 一 个 树 结 构 因 子 图 中 的 因 
子 六 (zs) 的 变量 zs 的 边缘 概率 分 布 可 以 写成 沿 着 所 有 链接 到 达 这 个 因子 结 点 的 信息 的 乘积 ， 乘 
以 形式 为 (8.72) 的 局 部 因子 f(x,)。 

(8.25) ”(**) 在 公式 (8.86) 中 ， 我 们 验证 了 在 图 8.51 所 示 的 图 中 运行 加 和 -乘积 算法 ， 并 且 
令 结 点 Z3 被 设置 为 根 结 点 ， 可 以 给 出 zz 的 正确 的 边缘 概率 。 证 明 我 们 也 可 以 得 到 zl1 和 zs 的 正确 
的 边缘 概率 。 类 似 地 ， 证 明 ， 在 这 个 图 上 运行 加 和 -乘积 算法 之 后 ， 使 用 结果 (8.72) 可 以 得 
到 zi, zz 的 正确 的 联合 概率 分 布 。 

(8.26) (*) 考虑 离散 变量 上 的 一 个 树 结 构 的 因子 图 ， 假 设 我 们 希望 计算 与 两 个 变 
量 Ya 和 zs 关联 的 联合 概率 分 布 p(za, zj) ， 这 两 个 变量 不 属于 同一 个 因子 。 和 定义 一 个 使 用 加 和 - 乘 
积 算法 计算 这 个 联合 概率 分 布 的 步 又， 其 中 一 个 变量 被 连续 地 限制 等 于 它 的 每 个 合法 的 值 。 

(8.27) (**) 考虑 两 个 离散 变量 z 和 7， 每 个 变量 有 三 个 可 能 的 状态 ， 例 如 z,y € {0, 1,2}。 
构造 这 些 变量 上 的 一 个 联合 概率 分 布 pz(z,y)， 它 具有 下 面 的 性 质 : 最 大 化 边缘 概率 p(z) 的 值 Z 以 
及 最 大 化 边缘 概率 p(y) 的 值 9 在 联合 概率 分 布下 的 整体 概率 为 零 ， 即 p(£, 7) = 0。 

(8.28) (*) 因子 图 的 加 和 -乘积 算法 的 挂 起 (pending) 信息 的 概念 在 8.4.7 节 定义 。 证 明 ， 
如 果 图 中 存在 一 个 或 者 多 个 环 ， 那 么 总 会 存在 至 少 一 个 挂 起 信息 ， 它 与 算法 运行 的 时 间 无 关 。 

(8.29) ”(*) 证 明 ， 如 果 加 和 -乘积 算法 运行 在 一 个 树 结 构 〈 没 有 环 ) 的 因子 图 上 ， 那 么 信 
息 被 发 送 有 限 次 之 后 ， 不 会 有 挂 起 信息 。 
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9 混合 模型 和 EM 


如 果 我 们 定义 观测 变量 和 潜在 变量 的 一 个 联合 概率 分 布 ， 那 么 对 应 的 观测 变量 本 身 的 概率 分 
布 可 以 通过 求 边缘 概率 的 方法 得 到 。 这 使 得 观测 变量 上 的 复杂 的 边缘 概率 分 布 可 以 通过 观测 变 
量 与 潜在 变量 组 成 的 扩展 空间 上 的 更 加 便于 计算 的 联合 概率 分 布 来 表示 。 因 此 ， 潜 在 变量 的 引 
入 使 得 复杂 的 概率 分 布 可 以 由 简单 的 分 量 组 成 。 本 章 中 ， 我们 会 看 到 混合 概率 分 布 (例如 2.3.9 
节 讨 论 的 高 斯 混合 模型 ) 可 以 用 离散 潜在 变量 来 表示 。 连 续 潜 在 变量 是 第 12 章 的 主题 。 

除了 提供 了 一 个 构建 更 复杂 的 概率 分 布 的 框架 之 外 ， 混 合 模型 也 可 以 用 于 数据 聚 类 。 因 此 ， 
在 开始 讨论 混合 概率 分 布 时 ， 我 们 会 考虑 寻找 数据 点 集合 中 的 聚 类 的 问题 。 我 们 首先 使 用 一 个 
非 概率 的 方法 解决 这 个 问题 ， 这 个 方法 被 称 为 天 均值 算法 〈Lloyd, 1982) 。 之 后 ， 我 们 引入 混 
合 概率 分 布 的 潜在 变量 观点 ， 其 中 离散 潜在 变量 可 以 被 看 做 将 数据 点 分 配 到 了 混合 概率 分 布 的 
具体 成 分 当中 。 潜 在 变量 模型 中 寻找 最 大 似 然 估 计 的 一 个 一 般 的 方法 是 期 望 最 大 化 (EM) 算 
法 。 我 们 首先 使 用 高 斯 混合 分 布 ， 以 一 种 相当 非 形式 化 的 方式 介绍 EM 算法 ,然后 我 们 会 基于 潜 
在 变量 的 观点 ， 给 出 一 个 更 加 仔细 的 处 理 方法 。 我 们 会 看 到 ，K 均 值 算法 对 应 于 用 于 高 斯 混合 
模型 的 EM 算法 的 一 个 特定 的 非 概 率 极限 。 最 后 ， 我 们 会 以 一 种 一 般 的 方式 讨论 EM 算法 。 

高 斯 混合 模型 广泛 应 用 于 数据 挖掘 、 机 器 学 习 和 统计 分 析 中 。 在 许多 应 用 中 ， 参 数 由 最 大 似 
然 方 法 确定 ， 通 常会 使 用 EM 算法 。 然 而 ， 正 如 我 们 将 看 到 的 那样 ， 最 大 似 然 方 法 有 一 些 巨 大 的 
局 限 性 。 在 第 10 章 中 ， 我 们 会 看 到 ， 使 用 变 分 推断 的 方法 ， 可 以 得 到 一 个 优雅 的 贝 叶 斯 处 理 方 
式 。 与 EM 相 比 ， 这 种 方法 几乎 不 需要 额外 的 计算 量 ， 并 且 它 解决 了 最 大 似 然 方 法 中 的 主要 困 
难 ， 也 使 得 混合 模型 的 分 量 的 数量 可 以 自动 从 数据 中 推断 。 








9.1 天 均值 聚 类 


首先 ， 我 们 考虑 寻找 多 维 空间 中 数据 点 的 分 组 或 聚 类 的 问题 。 假 设 我 们 有 一 个 数据 
集 {zx1,..….,ZN}， 它 由 DD 维 欧 几 里 得 空间 中 的 随机 变量 zx 的 NN 次 观测 组 成 。 我 们 的 目标 是 将 数据 
集 划 分 为 天 个 类 别 。 现 阶段 我 们 假定 天 的 值 是 给 定 的 。 直 观 上 讲 ， 我 们 会 认为 由 一 组 数据 点 构 
成 的 一 个 聚 类 中 ， 聚 类 内 部 点 之 间 的 距离 应 该 小 于 数据 点 与 聚 类 外 部 的 点 之 间 的 距离 。 我 们 可 
以 形式 化 地 说 明 这 个 概念 。 引 入 一 组 D 维 向 量 jw,， 其 中 k 二 1,..., 太 ， 且 jw 是 与 第 k 个 聚 类 关联 
的 一 个 代表 。 正 如 我 们 将 看 到 的 那样 ， 我 们 可 以 认为 表示 了 到 类 的 中 心 。 我 们 的 目标 是 找到 
数据 点 分 别 属于 的 聚 类 ， 以 及 一 组 向 量 {Ax}， 使 得 每 个 数据 点 和 与 它 最 近 的 向 量 必 之 间 的 距离 
的 平方 和 最 小 。 

现在 ， 比 较 方 便 的 做 法 是 定义 一 些 记 号 来 描述 数据 点 的 聚 类 情况 。 对 于 每 个 数据 点 Zn， 我 
们 引入 一 组 对 应 的 二 值 指示 变量 rw € {0,1}， 其 中 k= 1 ,天 表示 数据 点 zn 属 于 天 个 聚 类 中 
的 哪 一 个 ， 从 而 如 果 数 据点 zn 被 分 配 到 类 别 上 ， 那 么 rnk = 1， 且 对 于 7 &， 有 Tn; 二 0。 这 被 
称 为 1-of- 天 表示 方式 。 之 后 我 们 可 以 定义 一 个 目标 函数 ， 有 时 被 称 为 失真 度量 (distortion 
measure) ， 形 式 为 








NK 
T= DD ralen — pxll? Oo 
n=1 k=1 
它 表 示 每 个 数据 点 与 它 被 分 配 的 向 量 必 之 间 的 距离 的 平方 和 。 我 们 的 目标 是 找 
到 {rnkj 和 {AaxJ 的 值 ， 使 得 J 达 到 最 小 值 。 我 们 可 以 用 一 种 迭代 的 方法 完成 这 件 事 ， 其 中 每 次 迭 
代 涉 及 到 两 个 连续 的 步骤 ， 分 别 对 应 rwx 的 最 优化 和 jj 的 最 优化 。 首 先 ， 我 们 为 有 选择 一 些 初 
始 值 。 然 后 ， 在 第 一 阶段 ， 我 们 关于 rnx 最 小 化 J， 保 持久 固定 。 在 第 二 阶段 ， 我 们 关于 jx 最 小 
化 了 J， 保持 rn 固定 。 不 断 重 复 这 个 二 阶段 优化 直到 收敛 。 我 们 会 看 到 ， 更 新 rw 和 更 新 pw 的 两 个 
阶段 分 别 对 应 于 EM 算法 中 的 E〈 期 望 ) 步骤 和 M (最 大 化 ) 步骤 。 为 了 强调 这 一 点 ， 我 们 会 
在 天 均值 算法 中 使 用 E 步 又 和 M 步 又 的 说 法 。 
首先 考虑 确定 mw。 由 于 公式 〈9.1) 给 出 的 7 是 rm 的 一 个 线性 函数 ， 因 此 最 优化 过 程 可 以 很 
容易 地 进行 ， 得 到 一 个 解析 解 。 与 不 同 的 ”相关 的 项 是 独立 的 ， 因 此 我 们 可 以 对 每 个 "分 别 进 行 
最 优化 ， 只 要 % 的 值 使 |zn 一 jp 上 最 小 ， 我 们 就 令 rp 等 于 1。 换 名 话说， 我 们 可 以 简单 地 将 数据 
点 的 聚 类 设置 为 最 近 的 聚 类 中 心 。 更 形式 化 地 ， 这 可 以 表达 为 


|， 如 果 k = argminj llzn 一 中外 
nk 一 


(9.2) 
0 ”其 他 情况 


293 
wwaibbt.com DODDDODOD 

























































































2 


图 9.1: 使 用 重新 缩放 的 老 忠实 间歇 喷泉 数据 集 对 天 均值 算法 进行 说 明 。(q 绿 点 表示 二 维 欧 儿 里 得 空间 中 
的 数据 集 ， 中 心 A 和 Ma 的 初始 选择 分 别 用 红色 又 号 和 蓝 色 又 号 表示 。(b) 在 初始 的 E 步 骤 中 ， 每 个 数据 点 
被 分 配 为 红色 聚 类 或 者 蓝 色 聚 类 ， 根 据 与 哪个 中 心 更 近来 确定 类 别 。 这 等 价 于 根据 两 个 聚 类 中 心 的 垂直 
平分 线 来 对 数据 点 进行 分 类 ， 中 垂 线 用 洋红 色 直 线 表示 。(@O 在 接 下 来 的 M 步 骤 中 ， 每 个 聚 类 中 心 使 用 分 
配 到 对 应 类 别 的 数据 点 重新 计算 。(d)-@ 给 出 了 接 下 来 的 E 步 骤 和 M 步 又， 直到 最 终 收敛 。 














现在 考虑 rnx 固 定时， 关于 jw 的 最 优化 。 目 标 函 数 J 是 jw 的 一 个 二 次 函数 ， 令 它 关 于 jx 的 导 
数 等 于 零 ， 即 可 达到 最 小 值 ， 即 


N 
2 :my rnkg(Tn— Mx)=0 (9.3) 
n=1 
可 以 很 容易 地 解 出 yw， 结果 为 > 
_ Zn TnkTn 
Wx = ee es (9.4) 


这 个 表达 式 的 分 母 等 于 聚 类 k 中 数据 点 的 数量 ， 因 此 这 个 结果 有 一 个 简单 的 含义 ， 即 令 jww 等 于 
类 别 k 的 所 有 数据 点 的 均值 。 因 此 ， 上 述 步骤 被 称 为 均值 (K-means) 算法 。 

重新 为 数据 点 分 配 聚 类 的 步骤 以 及 重新 计算 聚 类 均值 的 步骤 重复 进行 ， 直 到 聚 类 的 分 配 不 改 
变 (或 者 直到 迭代 次 数 超过 了 某 个 最 大 值 ) 。 由 于 每 个 阶段 都 减 小 了 目标 函数 J 的 值 ， 因 此 算 
法 的 收敛 性 得 到 了 保证 。 然 而 ,算法 可 能 收敛 到 J 的 一 个 局 部 最 小 值 而 不 是 全 局 最 小 值 。 天 均值 
算法 的 收敛 性 质 的 讨论 ， 可 以 参考 MacQueen (1967) 。 

图 9.1 给 出 了 将 天 均值 算法 应 用 于 老 忠实 间歇 喷 果 数据 集 上 的 结果 。 对 于 这 个 例子 ， 我 们 对 
数据 进行 了 一 个 线性 的 重新 标 度 ， 被 称 为 标准 化 (standardizing) ， 使 得 每 个 变量 的 均值 为 零 ， 
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图 9.2: 对 于 图 9.1 给 出 的 开 均 值 算 法 ， 在 每 个 E 步 又 〈 蓝 点 ) 和 M 步 又 ( 红 点 ) 之 后 ， 代 价 函 数 .7 的 图 像 。 
算法 在 第 三 个 M 步 又 之 后 收敛 ， 最 后 一 个 EM 循环 对 于 分 类 情况 和 代表 向 量 都 没 造成 改变 。 


标准 差 为 单位 标准 差 。 这 个 例子 中 ， 我 们 选择 了 K = 2， 因 此 这 种 情况 下 ， 将 每 个 数据 点 分 配 
到 最 近 的 聚 类 中 心 等 价 于 将 数据 点 按照 其 位 于 两 个 数据 中 心 的 垂直 平分 线 的 哪 一 侧 对 数据 点 进 
行 分 类 。 对 于 老 忠 实 间 葡 喷泉 数据 ， 公 式 (9.1) 给 出 的 代价 函数 如 图 9.2 所 示 。 

注意 ， 我 们 故意 将 聚 类 中 心 选择 了 较 差 的 初始 值 ， 从 而 算法 在 收敛 之 前 执行 了 车 干 步 。 在 实 
际 应 用 中 ， 一 个 更 好 的 初始 化 步骤 是 将 聚 类 中 心 选择 为 由 天 个 随机 数据 点 组 成 的 子 集 。 还 有 一 
点 值得 注意 的 地 方 ， 天 均值 算法 本 身 经 常 被 用 于 在 EM 算法 之 前 初始 化 高 斯 混合 模型 的 参数 。 

直接 实现 这 里 讨论 的 天 均值 算法 会 相当 慢 ， 因 为 在 每 个 E 步 又 中 ， 必 须 计算 每 个 代表 向 量 与 
每 个 数据 点 之 间 的 欧 几 里 得 距离 。 关 于 加 速 玉 均值 算法 ， 有 很 多 方法 被 提出 来 ， 一 些 方法 基 
于 对 数据 结构 的 预先 计算 ， 例 如 将 数据 组 织 成 树 结 构 ， 使 得 相 邻 的 数据 点 属于 同一 个 子 树 

(Ramasubramanian and Paliwal, 1990; Moore, 2000) 。 另 外 一 些 方法 使 用 距离 的 三 角 不 等 式 ， 因 

此 避免 了 不 必要 的 距离 计算 (Hodgson, 1998; Elkan, 2003) 。 

目前 为 止 ， 我 们 已 经 研究 了 KK 均值 算法 的 一 个 批 处 理 版 本 ， 其 中 每 次 更 新 代表 癌 量 时 
都 使 用 了 整个 数据 集 。 我 们 也 可 以 推导 一 个 在 线 随 机 算法 (MacQueen, 1967) ,方法 是 : 
将 Robbins-Monro 步 骤 应 用 到 寻找 回归 通 数 的 根 的 问题 中 ， 其 中 回归 前 数 由 公式 (9.1) 给 出 
的 yj 关于 人 以 的 导数 给 出 。 这 产生 了 顺序 更 新 算法 ， 其 中 对 于 每 个 数据 点 zn ， 我 们 使 用 下 式 更 新 
最 近 的 代表 向 量 jx。 




















pi = pl + mm (en — pl ) (9.5) 


其 中 mm 是 学 习 率 参数 ， 通 常 令 其 关于 数据 点 的 数量 单调 递减 。 

五 均值 算法 的 基础 是 将 平方 欧 几 里 得 距离 作为 数据 点 与 代表 向 量 之 间 不 相似 程度 的 度量 。 这 
不 仅 限制 了 能 够 处 理 的 数据 变量 的 类 型 〈 例 如 ， 它 不 能 处 理 某 些 或 全 部 变量 表示 类 别 标签 的 情 
形 ) ， 而 且 使 得 聚 类 中 心 的 确定 对 于 异常 点 不 具有 重 棒 性 。 我 们 可 以 这 样 推广 天 均值 算法 : 引 
入 两 个 向 量 z 和 2 之 间 的 一 个 更 加 一 般 的 不 相似 程度 的 度量 2(z, z )， 然 后 最 小 化 下 面 的 失真 度 
里 


NK 
J = ,Yr (ns the) (9.0) 

n=1 k=1 
这 就 给 出 了 天 中 心 点 算法 (K-medoids algorithm) 。 与 之 前 一 样 ， 对 于 给 定 的 聚 类 代表 jw ，E 步 
又 涉及 到 为 每 个 数据 点 分 配 聚 类 ， 使 得 与 对 应 的 聚 类 代表 的 不 相似 程度 最 小 。 这 一 步 的 计算 代 
价 为 O(KN)， 与 标准 的 天 均值 算法 的 情形 相同 。 对 于 不 相似 程度 度量 的 一 般 选 择 ，M 步 又 通常 
比 K 均 值 的 情形 更 加 复杂 ， 因 此 通常 会 将 聚 类 原型 限制 为 等 于 某 个 分 配 到 那个 聚 类 的 数据 向 
量 ， 因 为 这 使 得 算法 可 以 适用 于 任何 不 相似 程度 的 度量 y(.,.)， 只 要 它 能 够 被 计算 。 因 此 ， 
对 于 每 个 聚 类 KE，M 步 又 涉 及 到 在 分 配 到 那个 聚 类 的 Nu 个 点 上 的 离散 搜索 ， 这 需要 O(CN2) 次 

对 72(，) 的 计算 。 

均值 算法 的 一 个 值得 注意 的 特征 是 ， 在 每 一 次 迭代 中 ， 每 个 数据 点 被 分 配 到 一 个 唯一 的 聚 
类 中 。 虽 然 某 些 数 据点 与 某 个 特定 的 中 心 必 的 距离 远 远 小 于 与 其 他 中 心 的 距离 ， 但 是 也 存在 其 
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Original image 





图 9.3: 使 用 天 均值 聚 类 算法 进行 图 像 分 割 的 两 个 例子 。 图 中 给 出 了 原始 图 像 以 及 使 用 不 同 的 天 值得 到 
的 到 均值 分 割 结果 。 这 张 图 也 说 明了 向 量 量子 化 用 于 数据 压缩 的 效果 ， 其 中 较 小 的 天 值 会 得 到 较 高 的 压 
缩 率 ， 代 价 是 图 像 的 质量 更 差 。 


他 的 数据 点 ， 位 于 两 个 聚 类 中 心 的 大 概 中 间 的 位 置 。 在 后 一 种 情形 中 ， 强 行将 数据 点 分 配 到 最 
近 的 聚 类 不 是 最 合适 的 。 我 们 在 下 一 节 会 看 到 ， 通 过 使 用 概率 的 方法 ， 我 们 得 到 了 对 数据 点 聚 
类 的 软 分 配 ， 它 反映 了 在 最 合适 聚 类 分 配 上 的 不 确定 性 。 这 个 概率 形式 带 来 了 一 些 数值 计算 
上 的 优势 。 


9.1.1 图 像 分 割 与 压缩 


作为 人 均值 算法 的 一 个 应 用 ， 我 们 考虑 两 个 相关 的 问题 ， 即 图 像 分 割 和 图 像 压 缩 。 图 像 分 割 
的 目标 是 将 图 像 分 割 成 若干 的 区 域 ， 每 个 区 域 有 一 个 相对 相似 的 视觉 外 观 ， 或 者 对 应 于 某 个 物 
体 或 物体 的 一 部 分 (Forsyth and Ponce, 2003) 。 图 像 中 的 每 个 像素 是 一 个 3 维 空间 中 的 一 个 点 ， 
这 个 三 维 空间 由 红 、 绿 、 蓝 通道 的 亮度 值 构成 。 我 们 的 分 割 算 法 简单 地 将 图 像 中 的 每 个 像素 看 
做 一 个 独立 的 数据 点 。 注 意 ， 严 格 地 说 ， 这 个 空间 不 是 欧 几 里 得 空间 ， 因 为 通道 亮度 被 限制 在 
区 间 [0,1]。 尽 管 这 样 ， 我 们 可 以 没有 难度 地 应 用 开 均 值 算法 。 我 们 给 出 了 运行 开 均 值 算法 直至 
收敛 的 结果 。 对 于 任意 特定 的 KK 值 ， 我 们 将 每 个 像素 的 {R, G, B} 亮 度 三 元 组 用 聚 类 中 心 jwx 的 亮 
度 值 蔡 代 。 对 于 不 同 的 K 值 ， 结 果 如 图 9.3 所 示 。 我 们 看 到 ， 对 于 给 定 的 K 值 ， 算 法 使 用 一 个 只 
有 KK 个 颜色 的 调 色 板 来 表示 图 像 。 要 强调 的 一 点 是 ，K 均 值 的 使 用 对 于 图 像 分 割 来 说 不 是 一 个 
特别 复杂 的 方法 ， 因 为 它 没有 考虑 不 同 像素 的 空间 上 的 近似 性 。 图 像 分 割 问题 通常 特别 困难 ， 
仍然 是 一 个 活跃 的 研究 领域 。 在 这 里 进行 介绍 只 是 为 了 说 明 K 均 值 算法 的 行为 。 

我 们 也 可 以 使 用 聚 类 算法 的 结果 进行 数据 压缩 。 区 分 无 损 数据 压缩 (lossless data 
compression) 与 有 损 数据 压缩 (lossy data compression) 是 很 有 必要 的 。 无 损 数据 压缩 中 ， 我 们 
的 目标 是 能 够 从 压缩 的 表示 中 精确 地 重建 原始 数据 ， 而 有 损 数据 压缩 中 ， 我 们 接受 重建 过 程 中 
出 现 的 一 些 错误 。 我 们 可 以 将 KK 均值 算法 按照 下 面 的 方式 应 用 到 有 损 数据 压缩 中 。 对 于 入 个 数 
据点 中 的 每 一 个 ， 我 们 只 存储 它 被 分 配 的 率 类 种 类 k。 我 们 还 存储 了 K 个 聚 类 中 心 jwx 的 值 ， 
这 通常 需要 存储 小 得 多 的 数据 ， 其 中 我 们 假定 K 之 NN。 这 样 ， 每 个 数据 点 都 根据 它 最 近 的 
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图 9.4: 混合 模型 的 图 形 表 示 ， 其 中 联合 概率 分 布 被 表示 为 plz, z) = p(z)p(z | z) 的 形式 。 


中 心 由 确定 。 新 的 数据 点 可 以 类 似 地 压缩 。 首 先 找到 最 近 的 由 ， 然 后 存储 标签 K 而 不 是 原始 
的 数据 向 量 。 这 个 框架 被 称 为 向 量 量 子 化 (vector quantization) ， 向 量 人 被 称 为 编码 书 向 量 
(code-book vector) 。 

上 面 讨 论 的 图 像 分 割 问题 也 说 明了 数据 压缩 中 聚 类 的 使 用 。 假 设 原始 图 像 有 个 像素 ， 每 个 
像素 由 {有 RR,G, B} 三 个 值 组 成 ， 每 个 值 由 8 比特 的 精度 存储 。 这 样 ， 直 接 传递 整 幅 图 像 需 要 24N 比 
特 。 现 在 假设 我 们 首先 在 图 像 数 据 上 运行 KK 均值 算法 ， 人 然后， 我 们 不 直接 传递 原始 像素 亮度 
向 量 ， 而 是 传递 最 近 的 向 量 jx 的 亮度 。 由 于 有 KK 个 这 样 的 向 量 ， 因 此 每 个 像素 需要 log2 KK 比 
特 。 我 们 还 必须 传送 K 个 编码 书 向 量 jw;， 这 需要 24K 比 特 ， 因 此 传递 这 个 图 像 所 需 的 比特 总 数 
为 24K 十 N10og2 K (四 舍 五 入 到 最 近 的 整数 ) 。 图 "9.3 给 出 的 原始 图 像 有 240 x 180 = 43, 200 个 像 
素 ， 因 此 直接 传递 需要 24 x 43, 200 = 1 036, 800 个 比特 。 作 为 对 比 ， 传 递 压缩 的 图 像 分 别 需 
要 43, 248 比 特 〈 天 =2) ，86,472 比 特 (天 =3) 以 及 173,040 比 特 (天 = 10) 。 这 表示 与 原始 
图 像 相 比 ， 压 缩 率 分 别 为 4.2% ，8.3% 和 16.7% 。 我 们 看 到 存在 一 个 压缩 程度 与 图 像 质量 之 间 的 
折 中 。 注 意 ， 在 这 个 例子 中 ， 我 们 的 目的 是 说 明天 均值 算法 。 如 果 我 们 的 目标 是 生成 一 个 好 的 
图 像 压 缩 算 法 ， 那 么 更 好 的 方法 是 考虑 相 邻 像素 组 成 的 小 块 ， 例 如 5 x 5， 从 而 利用 了 自然 图 像 
中 相 邻 像素 之 间 存 在 的 相关 性 。 








9.2 混合 高 

在 2.3.9 节 ， 我 们 将 高 斯 混合 模型 看 成 高 斯 分 量 的 简单 线性 县 加 ， 目 标 是 提供 一 类 比 单独 的 高 
斯 分 布 更 强大 的 概率 模型 。 我 们 现在 使 用 离散 潜在 变量 来 描述 高 斯 混合 模型 。 这 会 让 我 们 更 深 
刻 地 认识 这 个 重要 的 分 布 ， 也 会 让 我 们 开始 了 解 期 望 最 大 化 算法 。 

回忆 一 下 ， 根 据 公 式 (2.188) ， 高 斯 混合 概率 分 布 可 以 写成 高 斯 分 布 的 线性 县 加 的 形式 ， 即 


K 
p(x) = >_ neN(z | pp, Dr) (9.7) 
k=1 








让 我 们 引入 一 个 为 二 值 随机 变量 z， 这 个 变量 采用 了 “1-of-K 表示 方法 ， 其 中 一 个 特定 的 元 
素 纹 等 于 1， 其 余 所 有 的 元 素 等 于 0。 于 是 纹 的 值 满足 2 < {0,1} 且 >j; zx = 1， 并 且 我 们 看 到 
根据 哪个 元 素 非 零 ， 向 量 z 有 K 个 可 能 的 状态 。 我 们 根据 边缘 概率 分 布 p(z) 和 条 件 概 率 分 
布 p(x | z) 定 义 联合 概率 分 布 p(x,z)， 对 应 于 图 9.4 所 示 的 图 模型 。z 的 边缘 概率 分 布 根据 混合 系 
数 7x 进 行 赋值 ， 即 


p(zk =1)= nk 
其 中 参数 {x} 必须 满足 
0<xx=1 (9.8) 
以 及 
K 
Dn 二 1 (9.9) 
kl 
使 得 概率 是 一 个 合法 的 值 。 由 于 z 使 用 了 “1-of 天 "表示 方法 ， 因 此 我 们 也 可 以 将 这 个 概率 分 布 写 
成 K 
w= | | x (9.10) 
三 1 
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类 似 地 ， 给 定 z 的 一 个 特定 的 值 ，z 的 条 件 概率 分 布 是 一 个 高 斯 分 布 
p(T | zk =1)=N(z | pr, Dn) 
也 可 以 写成 


K 
p(x|z)= [N(x | pr, Ex)* (9.11) 
k=1 


联合 概率 分 布 为 p(z)p(z | z)， 从 而 z 的 边缘 概率 分 布 可 以 通过 将 联合 概率 分 布 对 所 有 可 能 的 z 求 
和 的 方式 得 到 ， 即 


K 
p(z) = > p(z)p(z | z) = 》 neN(z | pn, DE) (0.12) 
之 (i 


其 中 我 们 使 用 了 公式 (9.10) 和 公式 (9.11) 。 因 此 z 的 边缘 概率 分 布 是 公式 (9.7) 的 高 斯 混合 
分 布 。 如 果 我 们 有 阁 干 个 观测 x21,.…. ,zn， 那 么 ， 由 于 我 们 已 经 用 p(x%) = 2 p(X,z) 的 方式 表 
示 了 边缘 概率 分 布 ， 因 此 对 于 每 个 观测 数据 点 zn， 存 在 一 个 对 应 的 潜在 变量 zn。 

于 是 ,我 们 找到 了 高 斯 混合 分 布 的 一 个 等 价 的 公式 ， 将 潜在 变量 显 式 地 写 出 。 似 乎 我 们 这 
么 做 没有 什么 意义 。 但 是 ， 我 们 现在 能 够 对 联合 概率 分 布 p(x,z) 操 作 ， 而 不 是 对 边缘 概率 分 


A 


男 一 个 起 着 重要 作用 的 量 是 给 定 x 的 条 件 下 , z 的 条 件 概 率 。 我 们 会 用 7(z) 表 
示 p(zx 二 1| xz)， 它 的 值 可 以 使 用 贝 叶 斯 定理 求 出 


plzk = Dp(T | zh = 1) 
(lp | el) 
neN(z | ps Dn) 

于 TN (DZ | Hj D4) 


我 们 将 zh 看 成 z = 1 的 先 验 概率 ， 将 Y( 纹 ) 看 成 观测 到 zz 之 后 ， 对 应 的 后 验 概率 。 正 如 我 们 将 看 
到 的 那样 ，Y(z#) 也 可 以 被 看 做 分 量 k 对 于 “解释 "观测 值 x 的 "责任 ”(responsibility〉。 

我 们 可 以 使 用 祖先 取样 的 方法 生成 服从 高 斯 混合 模型 的 概率 分 布 的 随机 样本 。 为 了 完成 
这 件 事 ， 我 们 首先 生成 z 的 一 个 值 ， 记 作 z， 它 服从 概率 分 布 p(z)。 然 后 ， 根 据 条 件 概 率 分 
布 p(x | 2) 生 成 z 的 一 个 值 。 从 标准 的 概率 分 布 中 取样 的 方法 将 在 第 11 章 讨论 。 我 们 可 以 用 下 面 
的 方法 描绘 联合 概率 分 布 p(x,z): 首先 画 出 z 的 对 应 值 的 点 ， 然 后 根据 z 的 值 对 它 进 行 着 色 ， 换 
名 话说 ， 根 据 哪个 高 斯 分 布 负责 生成 这 个 数据 进行 着 色 ， 如 图 "9.5 所 示 。 类 似 地 ， 服 从 边缘 概 
率 分 布 pz(z) 的 样本 可 以 通过 从 联合 概率 分 布 中 取样 然后 忽略 z 的 值 的 方式 得 到 。 这 些 如 图 9.5(b) 
所 示 。 图 中 画 出 了 zx 的 值 ， 没 有 任何 颜色 标记 。 

我 们 也 可 以 使 用 这 个 人 工 生成 的 数据 来 说 明 责任 的 含义 。 对 于 每 个 数据 点 ， 我 们 计算 生成 
了 数据 集 的 混合 概率 分 布 的 每 个 分 量 的 后 验 概率 分 布 。 特 别 地 ， 我 们 可 以 表示 出 与 数据 点 zn 相 
关联 的 责任 Y(znx) 的 值 ， 方 法 是 : 对 于 k = 1 2,3， 我 们 分 别 用 红色 、 蓝 色 、 绿 色 来 画 出 对 应 的 





7Y(zx) = pz =1|2)= 
(9.13) 





被 标记 为 红色 ， 而 7(zn2) = Y(zn3) = 0.5 的 数据 点 的 颜色 中 ， 蓝 色 和 绿色 的 比例 相同 ， 因 此 是 青 
色 。 应 该 将 这 幅 图 与 图 "9.5 人 进行 对 比 ， 那 里 数据 点 使 用 它们 被 生成 的 真实 的 分 量 类 别 进行 了 标 
记 。 





9.2.1 最 大 似 然 


假设 我 们 有 一 个 观测 的 数据 集 {21,.…. ,zxN}， 我 们 希望 使 用 混合 高 斯 模型 来 对 数据 进行 建 
模 。 我 们 可 以 将 这 个 数据 集 表示 为 一 个 N x D 的 矩阵 侠 ， 其 中 第 n 行 为 Zh。 类 似 地 ， 对 应 的 隐 
含 变量 会 被 表示 为 一 个 N x K 的 和 矩阵， 它 的 行为 六 。 如 果 我 们 假定 数据 点 独立 地 从 概率 分 布 
中 抽取 ， 那 么 我 们 可 以 使 用 图 9.6 所 示 的 图 模型 来 表示 这 个 独立 同 分 布 数据 集 的 高 斯 混合 模型 。 
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图 9.5: 从 图 2.233 给 出 的 3 个 高 斯 分 布 组 成 的 混合 分 布 中 抽取 的 500 个 样本 点 。(@) 从 联合 概率 分 
布 p(z)p(z | z) 中 抽取 的 样本 ， 其 中 z 的 三 种 状态 对 应 于 混合 分 布 的 三 个 分 量 ， 用 红色 、 绿 色 、 蓝 色 表 
示 。(b) 来 自 边缘 概率 分 布 p(x) 的 对 应 的 样本 ，, 仪 仅 将 z 的 值 忽略 ， 画 出 z 的 值 即 可 。(@) 中 的 数据 集 被 称 为 
完整 的 ，(b) 中 的 数据 集 被 称 为 不 完整 的 。(9 同 样 的 样本 ， 颜 色 表示 与 数据 点 z 关 联 的 责任 Y(znx)， 其 中 
红色 、 蓝 色 、 绿 色 所 占 的 比重 分 别 由 Y(znx), 二 1,2,3 给 出 。 


称 





图 9.6: I 模型 的 图 表示 ， 对 应 的 潜在 变量 为 {zn}， 
中 n=1,...,N。 


根据 公式 (9.7) ， 对 数 似 然 函 数 为 


Inp(X | ,1,5 (Sum zn | m2 | (9.14) 
天 EL 


在 我 们 讨论 如 何 最 大 化 这 个 函数 之 前 ， 有 必要 强调 一 下 由 于 奇异 性 的 存在 造成 的 应 用 于 
高 斯 混合 模型 的 最 大 似 然 框架 中 的 一 个 大 问题 。 为 了 简化 起 见 ， 我 们 考虑 一 个 高 斯 混合 模 
型 ， 它 的 分 量 的 协 方 差 矩 阵 为 2 = cotT， 其 中 7 是 一 个 单位 矩阵 ， 虽 然 结 论 对 于 一 般 的 协 方 
差 矩 阵 仍然 成 立 。 假 设 混合 模型 的 第 7 个 分 量 的 均值 wj 与 某 个 数据 点 完全 相同 ， 即 对 于 某 
个 n 值 ，mij = Xn。 这 样 ， 这 个 数据 点 会 为 似 然 函 数 贡 献 一 项 ， 形 式 为 

2 — 9.15 
N(xzn | Zn; ojT) = no (9.15) 


如 果 我 们 考虑 极限 cj 一 0， 那 么 我 们 看 到 这 一 项 趋 于 无 穷 大 ， 因 此 对 数 似 然 函数 也 会 趋 于 无 穷 
大 。 因 此 ， 对 数 似 然 函数 的 最 大 化 不 是 一 个 具有 良好 定义 的 问题 ， 因 为 这 种 奇异 性 总 会 出 现 ， 
会 发 生 在 任何 一 个 退化 到 一 个 具体 的 数据 点 上 的 高 斯 分 量 上 。 回 忆 一 下 ， 这 个 问题 在 单一 的 
高 斯 分 布 中 没有 出 现 。 为 了 理解 不 同 之 处 ， 我 们 注意 到 ， 如 果 单一 的 高 斯 分 布 退化 到 了 一 个 数 
据点 上 ， 那 么 它 总 会 给 由 其 他 数据 点 产生 的 似 然 函 数 贡 献 可 乘 的 因子 ， 这 些 因 子 会 以 指数 的 速 
度 趋 于 零 ， 从 而 使 得 整体 的 似 然 函 数 趋 于 零 而 不 是 无 穷 大 。 然 而 ， 一 旦 我 们 在 混合 概率 分 布 中 
存在 〈 至 少 ) 两 个 分 量 ， 其 中 一 个 分 量 会 具有 有 限 的 方差 ， 因 此 对 所 有 的 数据 点 都 会 赋予 一 个 
有 限 的 概率 值 ， 而 男 一 个 分 量 会 收缩 到 一 个 具体 的 数据 点 ， 因 此 会 给 对 数 似 然 通 数 页 献 一 个 不 
断 增加 的 值 。 如 图 9.7 所 示 。 这 种 奇异 性 提供 了 最 大 似 然 方法 中 出 现 的 过 拟 合 现象 的 男 一 个 例 
我 们 后 面 会 看 到 ， 如 果 我 们 使 用 贝 叶 斯 方法 ， 那 么 这 种 困难 之 处 就 不 会 出 现 。 但 是 现 阶 
， 我 们 只 需 注 意 ， 将 最 大 似 然 方法 应 用 到 高 斯 混合 模型 中 时 必须 避免 这 种 病态 解 ， 并 且 寻 找 
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图 9.7: 似 然 函数 的 奇异 性 在 混合 高 斯 模型 中 如 何 出 现 的 说 明 。 应 该 将 这 幅 图 与 图 1.14 展 示 的 单 变量 高 斯 分 
布 的 情形 进行 对 比 ， 那 里 没有 产生 奇异 性 。 


表现 较 好 的 似 然 函数 的 局 部 极 大 值 。 我 们 可 以 使 用 合适 的 启发 式 方法 来 避免 这 种 奇异 性 ， 例 如 
如 果 检 测 到 高 斯 分 量 收 缩 到 一 个 点 ， 那 么 就 将 它 的 均值 重新 设 定 为 一 个 随机 选择 的 值 ， 并 且 重 
新 将 它 的 方差 设置 为 某 个 较 大 的 值 ， 然 后 继续 最 优化 。 

寻找 最 大 似 然 解 时 的 另 一 个 问题 产生 于 下 面 的 事实 : 对 于 任意 给 定 的 最 大 似 然 解 ， 一 个 
Ei A i aN a ue i 
到 K 个 分量 上 的 方式 。 换 句 话 说 ， 对 于 参数 值 空间 中 任意 给 定 的 点 ， 都 会 有 K! 一 1 个 其 他 的 点 
给 出 完全 相同 的 概率 分 布 。 i 
2002) ， 当 我 们 希望 表示 模型 的 参数 时 ， 这 是 一 个 重要 的 问题 。 当 我 们 在 第 12 章 讨论 具有 连续 
潜在 变量 的 模型 时 ， 可 区 分 问题 还 会 出 现 。 但 是 ， 这 个 问题 与 找到 一 个 好 的 概率 模型 无 关 ， 因 
为 任意 等 价 的 解 互 相 之 间 都 一 样 好 。 

最 大 化 高 斯 混合 模型 的 对 数 似 然 函数 (9.14) 比 单一 的 高 斯 分 布 的 情形 更 加 复杂 。 困 难 来 源 
于 在 公式 (9.14) 中 ， 对 k 的 求 和 出 现在 对 数 计算 内 部 ， 从 而 对 数 函 数 不 再 直接 作用 于 高 斯 分 
A i 导数 等 于 零 ， 那 么 我 们 不 会 得 到 一 个 解析 解 ， 正 如 我 们 将 看 到 

那 

一 种 方法 是 使 用 基于 梯度 的 优化 方法 (Fletcher, 1987; Nocedal and Wright, 1999; Bishop and 
Nabney, 2008) 。 虽 然 基于 梯度 的 方法 是 可 行 的 ， 并 且 当 我 们 在 第 5 章 中 讨论 混合 密度 网 络 时 起 
了 重要 的 作用 ， 但 是 我 们 现在 考虑 另 一 种 方法 ， 被 称 为 EM 算法 。 它 具有 广泛 的 适用 性 ， 是 我 们 
将 在 第 10 章 讨论 的 变 分 推断 的 基础 。 














9.2.2 用 于 高 斯 混合 模型 的 EM 


一 种 优雅 的 并 且 强 大 的 寻找 带 有 潜在 变量 的 模型 的 最 大 似 然 解 的 方法 被 称 为 期 望 最 大 化 
算法 (expectation-maximization algorithm) ,或 者 EM 算法 (Dempster et al., 1977; McLachlan and 
Krishnan, 1997) 。 稍 后 ， 我 们 会 给 出 EM 算法 的 一 般 形式 ， 并 且 我 们 也 会 给 出 如 何 推广 EM 得 到 
变 分 推断 的 框架 。 但 是 现在 ， 我 们 会 在 高 斯 混合 模型 的 问题 中 ， 给 出 EM 算法 的 一 种 相对 非 形 式 
化 的 描述 。 然 而 ， 我 们 要 强调 的 时 ，EM 算 法 具有 广泛 的 适用 性 ， 实 际 上 在 本 书 中 讨论 的 许多 不 
同 模型 中 都 会 遇 到 它 。 

首先 ， 让 我 们 写 下 似 然 函数 的 最 大 值 必须 满足 的 条 件 。 令 公式 (9.14) 中 Inp(X | T 4, 忆 ) 关 
于 高 斯 分 量 的 均值 jw 的 均值 等 于 零 ， 我 们 有 





K 
NEN (Tn | Hp, Dx) = 
0 一 3 (zn 一 (9.10) 
2 人 (Zn | p17, 3;) on 名 
一 二 一 一 


YZng) 


其 中 我 们 使 用 了 高 斯 概率 分 布 的 公式 (2.43) 。 注 意 ， 公 式 (9.13) 给 出 的 后 验 概率 (或 者 成 
为 责任 ) 很 自然 地 出 现在 了 等 式 右 侧 。 两 侧 同 时 乘 以 (假设 矩阵 是 非 奇异 的 ) ， 整 理 ， 可 


得 


N 
1 
Hk = Ny > YZnh) Ln (9.17) 
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其 中 我 们 定义 了 


N 
Ni = DY(zng) (9.18) 
n=1 





我 们 可 以 将 和 Nk 看 做 分 配 到 吧 类 % 的 数据 点 的 有 效 数量 。 和 仔细 研究 这 个 解 的 形式 。 我 们 看 到 第 个 
高 斯 分 量 的 均值 由 通过 对 数据 集 里 所 有 的 数据 点 求 加 权 平 均 的 方式 得 到 ， 其 中 数据 点 zn 的 权 因 
子 由 后 验 概 率 Y(znx) 给 出 ， 而 Y(znx) 表 示 分 量 # 对 生成 2 的 责任 。 

如 果 我 们 零 Inp( 关 | 7, 4, 允 ) 关 于 的 导数 等 于 零 ， 然 后 用 一 个 类 似 的 推理 过 程 ， 使 用 单一 
高 斯 分 布 协 方差 矩阵 的 最 大 似 然 结果 ， 我 们 有 


N 
1 
Bx = DV) (en — pr) (2 ~ pre) (0.19) 
n=1 





这 与 一 元 高 斯 分 布 的 对 应 的 结果 具有 相同 的 函数 形式 ,但 是 与 之 前 一 样 ， 每 个 数据 点 都 有 一 个 
权 值 ， 权 值 等 于 对 应 的 后 验 概率 ， 分 母 为 与 对 应 分 量 相关 联 的 数据 点 的 有 效 数量 。 

最 后 ， 我 们 关于 混合 系数 内 最 大 化 InP(X | 交 ,内 于 )。 这 里 我 们 必须 考虑 限制 条 件 (9.9) ， 
它 要 求 混合 系数 的 加 和 等 于 1。 使 用 拉 格 朗 日 乘 数 法 ， 最 大 化 下 面 的 量 





K 
Inp(X | 7,n,5)+A\ bs Nk 一 1] (9.20) 
k=1 
可 得 四 
N (zn | Lp, Dx) 
0= -入 (9.21) 
全 2 TN (zn | 17, 3) 


其 中 ,我 们 再 次 看 到 了 “责任 "这 一 项 。 如 果 我 们 现在 将 两 侧 乘 以 mw ， 然 后 使 用 公式 (9.9) 对 k 求 
和 ， 我 们 会 发 现 \= -N。 使 用 这 个 结果 消去 ， 整 理 ， 可 得 


NN 


从 而 第 k 个 分 量 的 混合 系数 为 那个 分 量 对 于 解释 数据 点 的 "责任 的 平均 值 。 

值得 强调 的 时 ， 结 果 (9.17) 、 (9.19) 和 (9.22) 并 没有 给 出 混合 模型 参数 的 一 个 解析 解 ， 
因为 责任 Y(zwk) 通 过 公式 (9.13) 以 一 种 复杂 的 方式 依赖 于 这 些 参 数 。 然 而 ， 这 些 结果 确实 给 
出 了 一 个 简单 的 迭代 方法 来 寻找 问题 的 最 大 似 然 解 。 正 如 我 们 将 看 到 的 那样 ， 这 个 迭代 过 程 
是 EM 算法 应 用 于 高 斯 混合 模型 的 一 个 实例 。 我 们 首先 为 均值 、 协 方差 、 混 合 系数 选择 一 个 初 
始 值 。 然 后 ， 我 们 交替 进行 两 个 更 新 ， 被 称 为 E 步 骤 和 M 步 又， 原因 稍 后 会 看 到 。 在 期 望 步 
又 (expectation step) 或 者 E 步 骤 中 ， 我 们 使 用 参数 的 当前 值 计 算 公 式 (9.13) 给 出 的 后 验 概 
率 〈 也 被 称 为 责任 ) 。 然 后 ， 我 们 将 计算 出 的 概率 用 于 最 大 化 步骤 (maximization step) 或 
者 M 步 又 中 ,使 用 公式 (9.17) 、 (9.19) 和 (9.22) 重新 估计 均值 、 方 差 和 混合 系数 。 注 意 ， 
在 进行 这 一 步骤 时 ， 我 们 首先 使 用 公式 (9.17) 计算 新 的 均值 ， 然 后 使 用 新 的 均值 通过 公式 
(9.19) 找到 协 方差 ， 这 与 单一 高 斯 分 布 的 对 应 结果 保持 一 致 。 我 们 稍 后 会 证 明 ， 每 次 通过 E 步 
又 和 接 下 来 的 M 步 又 对 参数 的 更 新 确保 了 对 数 似 然 函数 的 增 大 。 在 实际 应 用 中 ， 当 对 数 似 然 函 
数 的 变化 量 或 者 参数 的 变化 量 低 于 某 个 阔 值 时 ， 我 们 就 认为 算法 收 勾 。 图 9.8 给 出 了 将 两 个 高 斯 
分 布 组 成 的 混合 概率 分 布 的 EM 算法 应 用 于 老 忠 实 间 吹 喷泉 数据 集 的 情形 。 这 里 ， 我 们 使 用 了 两 
个 高 斯 分 布 的 混合 ， 分 布 中 心 的 初始 值 与 图 9.1 中 的 天 均值 算法 使 用 了 相同 的 初始 值 ， 精 度 矩 阵 
被 初始 化 为 正比 于 单位 矩阵。 图 人 用 绿色 标记 出 了 数据 点 ， 以 及 初始 的 混合 模型 的 配置 ， 其 中 
两 个 高 斯 分 量 的 一 个 标准 差 位 置 的 轮廓 线 分 别 用 红色 圆圈 和 蓝 色 圆圈 标记 。 图 中 给 出 了 初 
始 E 步 又 的 结果 ， 其 中 每 个 数据 点 的 颜色 中 ， 蓝 色 所 占 的 比重 等 于 由 蓝 色 分 量 生成 对 应 数据 点 的 
后 验 概率 ， 红 色 所 占 的 比重 等 于 由 红色 分 量 生成 对 应 数据 点 的 后 验 概率 。 因 此 ， 对 于 属于 两 个 
聚 类 的 后 验 概率 都 较 大 的 数据 点 来 说 ， 颜 色 看 起 来 是 紫色 的 。 图 人 给 出 了 第 一 个 M 步 骤 之 后 的 
结果 ， 其 中 蓝 色 高 斯 分 布 的 均值 被 移 至 数据 点 的 均值 ， 同 时 根据 属于 蓝 色 类 别 的 每 个 数据 点 的 
概率 进行 加 权 。 换 句 话说， 它 被 移 到 了 蓝 色 标记 数据 点 的 质心 。 类 似 地 ， 蓝 色 高 斯 分 布 的 协 方 


Nk (9.22) 
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图 9.8: 对 老 忠 实 间 敬 喷 泉 数 据 集 使 用 EM 算法 的 说 明 ， 这 个 数据 集 在 图 >.1 中 用 来 说 明 玉 均值 算 法 。 详 细 说 
明 见 正文 。 


差 被 设置 为 蓝 色 标记 数据 点 的 协 方差 。 红 色 分 量 的 情形 与 此 类 似 。 图 (d),(9 和 公分 别 给 出 了 2 
次 、5 次 、20 次 完整 的 EM 循环 之 后 的 结果 。 在 图 四 中 ， 算 法 接近 收敛 。 

注意 ， 与 玉 均 值 算法 相 比 ，EM 算 法 在 达到 (近似 ) 收敛 之 前 ,经历 了 更 多 次 的 授 代 ， 每 次 
迄 代 需 要 更 多 的 计算 量 。 因 此 ， 通 常 运行 K 均 值 算 法 找到 高 斯 混合 模型 的 一 个 合适 的 初始 化 
值 ， 接 下 来 使 用 EM 算法 进行 调节 。 协 方差 矩阵 可 以 很 方便 地 初始 化 为 通过 KK 均值 算法 找到 的 聚 
类 的 样本 协 方差 ， 混 合 系数 可 以 被 设置 为 分 配 到 对 应 类 别 中 的 数据 点 所 占 的 比例 。 与 最 大 化 对 
数 似 然 函 数 的 基于 梯度 的 方法 相同 ， 算 法 必须 避免 似 然 函 数 带 来 的 奇异 性 ， 即 高 斯 分 量 退 化 到 
一 个 具体 的 数据 点 。 应 该 强调 的 是 ， 通 常 对 数 似 然 函 数 会 有 多 个 局 部 极 大 值 ，EM 不 保证 找到 这 
些 极 大 值 中 最 大 的 一 个 。 由 于 高 斯 混合 模型 的 EM 算法 非常 重要 ， 因 此 我 们 总 结 如 下 。 

给 定 一 个 高 斯 混合 模型 ， 目 标 是 关于 参数 (均值 、 协 方差 、 混 合 系数 ) 最 大 化 似 然 函数 。 


初始 化 均值 jw.、 协 方差 :和 混合 系数 Tj;， 计 算 对 数 似 然 函数 的 初始 值 。 
“。 卫 步 又。 使 用 当前 参数 值 计 算 责任 。 








TEN (Tn | Ap Dk) 





7Y(znk) = 二 六 (9.23) 
D1 TN (Tn | 13, Dj) 
。M 步 又 。 使 用 当前 的 “责任 重新 估计 参数 。 
1 N 
新 _ 
pe = nh (9.24) 
n=1 
1 N 
新 新 新 \T 
了 = 页 Doni) lon 一 1)(zn 一 AD) (9.25) 
疡 N 
新 名 9.26 
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五 


N 
NE 二 (9.27) 
n=1 
。 计算 对 数 似 然 函数 
N K 
Inp(X | ,3,7)= >》 hn (Pave, | m2 | (9.28) 
n=1 k=1 


全 查 参 数 或 者 对 数 似 然 函 数 的 收敛 性 。 如 果 没 有 满足 收敛 的 准则 ， 则 返回 第 2 步 。 


9.3 ”EM 的 另 一 种 观点 


本 节 中 ， 我 们 介绍 EM 算法 的 男 一 种 观点 ， 其 中 潜在 变量 起 着 重要 的 作用 。 我 们 首先 使 用 一 
种 抽象 的 方式 讨论 这 种 方法 ， 然 后 我 们 再 次 考虑 高 斯 混合 模型 的 例子 ， 来 具体 说 明 这 个 模型 。 

EM 算法 的 目标 是 找到 具有 潜在 变量 的 模型 的 最 大 似 然 解 。 我 们 将 所 有 观测 数据 的 集合 记 
作 瑟 ， 其 中 第 mn 行 表示 zx。 类 似 地 ， 我 们 将 所 有 洪 在 变量 的 集合 记 作 驯 ， 对 应 的 行为 区 。 所 有 
模型 参数 的 集合 被 记 作 9， 因 此 对 数 似 然 函 数 为 


Inp(X|0)=In [Zecs | 中 (9.29) 
Z 


注意 ， 我 们 的 讨论 同样 适用 于 连续 潜在 变量 的 情形 ， 只 需 把 对 Z 的 求 和 替换 为 积分 即 可 。 

一 个 关键 的 现象 是 ， 对 于 潜在 变量 的 求 和 位 于 对 数 的 内 部 。 即 使 联合 概率 分 布 p( 关 ,2 | 9) 属 
于 指数 族 分 布 ， 由 于 这 个 求 和 式 的 存在 ， 边 缘 概 率 分 布 p(X | 0) 通常 也 不 是 指数 族 分 布 。 求 和 
式 的 出 现 阻 止 了 对 数 运算 直接 作用 于 联合 概率 分 布 ， 使 得 最 大 似 然 解 的 形式 更 加 复杂 。 

现在 假定 对 于 入 中 的 每 个 观测 ， 我 们 都 有 潜在 变量 2Z 的 对 应 值 。 我 们 将 {, 2} 称 为 完整 
(complete) 数据 集 ， 并 且 我 们 称 实际 的 观测 数据 集 和 是 不 完整 的 (incomplete) ， 如 图 9.5 所 
示 。 完 整数 据 集 的 对 数 似 然 函 数 的 形式 为 np( 瑟 ,2 | 9)， 并 且 我 们 假定 对 这 个 完整 数据 的 对 数 
似 然 函数 进行 最 大 化 是 很 容易 的 。 

然而 ， 在 实际 应 用 中 ， 我 们 没有 完整 数据 集 {入 ,2}， 只 有 不 完整 的 数据 和 也。 我 们 关于 潜在 
变量 2Z 的 取 值 的 知识 仅仅 来 源 于 后 验 概率 分 布 p(2 | 和 ,9)。 由 于 我 们 不 能 使 用 完整 数据 的 对 数 
似 然 函 数 ， 因 此 我 们 反 过 来 考虑 在 潜在 变量 的 后 验 概率 分 布下 ， 它 的 期 望 值 ， 这 对 应 于 EM 算法 
中 的 E 步 又 ( 稍 后 会 看 到 ) 。 在 接 下 来 的 M 步 骤 中 ,我 们 最 大 化 这 个 期 望 。 如 果 当 前 对 于 参数 的 
估计 为 6 日 ， 那 么 一 次 连续 的 E 步 骤 和 M 步 骤 会 产生 一 个 修正 的 估计 6 新 。 算 法 在 初始 化 时 选择 了 
参数 90 的 某 个 起 始 值 。 对 期 望 的 使 用 看 起 来 多 少 有 些 随意 ， 但 是 当 我 们 在 9.4 节 更 深入 地 讨 
论 EM 算 法 时 ,我们 会 看 到 这 种 选择 的 原因 。 

在 E 步 骤 中 ， 我 们 使 用 当前 的 参数 值 g 昌 寻找 潜在 变量 的 后 验 概率 分 布 p(2 | 居 , 9 日 )。 然 后 ， 
我 们 使 用 这 个 后 验 概率 分 布 计 算 完 整数 据 对 数 似 然 函 数 对 于 一 般 的 参数 值 6 的 期 望 。 这 个 期 望 被 
记 作 Q@(9, 9 有) ， 由 下 式 给 出 。 


@(6,68) = >_p(Z|X,0F)Inp(X,2|0) (9.30) 
Z 


在 M 步 又 中 ， 我 们 通过 最 大 化 下 式 
0 新 = argmax Q(0, 0 日) (9.31) 
0 


来 确定 修正 后 的 参数 估计 969。 注意 ， 在 Q(9, 9 日) 的 定义 中 ， 对 数 操作 直接 作用 于 联合 概率 分 
布 p(X,Z | 9)， 因 此 根据 假设 ， 对 应 的 M 步 又 的 最 大 化 是 可 以 计算 的 。 

一 般 的 EM 算法 总 结 如 下 。 正 如 我 们 稍 后 会 看 到 的 那样 ， 每 个 EM 循环 都 会 增 大 不 完整 数据 的 
对 数 似 然 函 数 (除非 已 经 达到 局 部 极 大 值 ) 。 

给 定 观测 变量 和 和 潜在 变量 Z 上 的 一 个 联合 概率 分 布 p( 环 ,2 | 9)， 由 参数 0 控制， 目标 是 关 
于 9 最 大 化 似 然 函数 p(X | 9)。 
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上 
CC 


图 9.9: 本 图 与 图 "6 相同 ， 只 是 我 们 现在 假定 离散 变量 z" 以 及 观测 变量 z" 被 观测 到 。 








”选择 参数 9 日 的 一 个 初始 设置 。 
.了 步骤 。 计 算 p(2 | XX,9 昌 )。 
。M 步 又。 计算 9 新 ， 由 下 式 给 出 。 
6 新 一 arg max Q(0, 6 日) (9.32) 


其 中 
8(9,g8) = >_p(Z|X,0N)Inp(X,2|0) (0.33) 
Z 


。 检 查 对 数 似 然 函数 或 者 参数 值 的 收敛 性 。 如 果 不 满 足 收敛 准则 ， 那 么 令 
9 旧 4 0 新 (9.34) 
然后 回 到 第 2 步 。 


EM 算法 也 可 以 用 来 寻找 模型 的 MAP (最 大 后 验 概率 ) 解 ， 此 时 我 们 定义 一 个 参数 上 的 先 验 
概率 分 布 p(6)。 在 这 种 情况 下 ，E 步 骤 与 最 大 似 然 的 情形 相同 ， 而 在 M 步 骤 中 ， 需 要 最 大 化 的 量 
为 (9,6 昌 ) +lnp(9)。 选 择 合适 的 先 验 概率 分 布 会 消除 图 9.7 所 示 的 奇异 性 。 

这 里 ,我 们 考虑 了 使 用 EM 算法 最 大 化 一 个 包含 离散 潜在 变量 的 似 然 函 数 。 然 而 ， 它 也 适用 
于 未 观测 的 变量 对 应 于 数据 集 里 的 缺失 值 的 情形 。 观 测 值 的 概率 分 布 可 以 通过 对 所 有 变量 的 联 
合 概率 分 布 关于 缺失 变量 求 和 或 积分 的 方式 得 到 。 这 样 ， EM 算法 可 以 用 来 最 大 化 对 应 的 似 然 函 
数 。 我 们 后 面 在 图 12.11 中 讨论 主 成 分 分 析 时 ， 会 给 出 这 种 方法 的 一 个 应 用 。EM 算 法 也 适用 于 数 
据 集 随机 缺失 (missing at random) 的 情形 ， 即 导致 某 个 值 缺失 的 原因 不 依赖 于 未 观测 的 值 。 这 
种 情形 有 很 多 ， 例 如 当 传 感 器 的 测量 值 超 过 某 个 闽 值 时 ， 传 感 器 就 不 会 成 功 地 返回 一 个 值 。 





9.3.1 重新 考察 高 斯 混合 模型 


我 们 现在 考虑 将 EM 算法 的 潜在 变量 观点 应 用 与 一 个 具体 的 例子 ， 即 高 斯 混合 模型 。 回 忆 一 
下 ， 我们 的 目标 是 最 大 化 对 数 似 然 函数 (9.14) ， 它 是 使 用 观测 数据 集 和 进行 计算 的 。 我 们 看 
到 这 个 计算 比 单一 高 斯 分 布 的 情形 更 困难 ， 因 为 对 k 的 求 和 出 现在 对 数 运算 内 部 。 假 设 除 了 观测 
数据 集 匀 我 们 还 有 对 应 的 离散 变量 Z 的 值 。 回 忆 一 下 ， 图 9.5(@) 给 出 了 一 个 “完整 "的 数据 集 ， 
即 给 出 了 每 个 数据 点 由 哪个 分 量 生成 ， 而 图 9.5(b) 给 出 了 对 应 的 “不 完整 "数据 集 。 完 整数 据 的 图 
模型 如 图 9.9 所 示 。 

现在 考虑 对 完整 数据 {六 , 2} 进 行 最 大 化 。 根 据 公式 (9.10) 和 公式 (9.11) ， 似 然 函 数 的 形 


NK 
p(X,Z 14,5,7)= ] rN | pr, 3*): (9.35) 

各 三 1:k 志 于 

其 中 zx 表示 zn 的 第 k 个 分 量 。 取 对 数 ， 我 们 有 
NK 
Inp(X,Z | 1, 5,7) = > > zr{lnne tlnN (rn | pn, Dn)} (9.30) 
郊 三 于 大 研 包 
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与 不 完整 数据 的 对 数 似 然 函数 (9.14) 进行 对 比 ， 我 们 看 到 在 & 上 的 求 和 与 对 数 运算 的 顺序 交换 
了 。 对 数 运 算 现在 直接 作用 于 高 斯 分 布 上 ， 而 高 斯 分 布 本 身 是 指数 族 分 布 的 一 个 成 员 。 丝 毫 不 
令 人 惊讶 ， 这 种 方法 产生 了 最 大 似 然 问题 的 一 个 简单 得 多 的 解 ， 说 明 如 下 。 首 先 考 虑 关于 均值 
和 协 方差 的 最 大 化 。 由 于 zn 是 一 个 KK 维 向 量 ， 并 且 只 有 一 个 元 素 等 于 ， 其 他 所 有 元 素 均 为 0， 

因此 完整 数据 的 对 数 似 然 函数 仅仅 是 K 个 独立 的 贡献 的 加 和 ， 每 个 混合 分 量 都 有 一 个 贡献 。 于 
是 关于 均值 或 协 方差 的 最 大 化 与 单一 高 斯 分 布 的 情形 完全 相同 ， 唯 一 的 区 别 是 它 只 涉及 到 被 分 
配 到 那个 分 量 的 数据 点 的 子 集 。 对 于 关于 混合 系数 的 最 大 化 问题 ， 我 们 注意 到 由 于 加 和 限制 
和 

， 结 果 头 

















1 N 
委 尘 


从 而 混合 系数 等 于 分 配 到 对 应 分 量 的 数据 点 所 占 的 比例 。 

因此 我 们 看 到 ， 完 整数 据 的 对 数 似 然 函数 可 以 用 一 种 简单 的 方法 求 出 最 大 值 的 解析 解 。 然 
而 ， 在 实际 应 用 中 ， 我 们 并 没有 潜在 变量 的 值 ， 因 此 ， 与 之 前 的 讨论 一 样 ， 我 们 考虑 完整 数据 
对 数 似 然 函数 关于 潜在 变量 后 验 概 率 分 布 的 期 望 。 使 用 公式 (9.10) 、 公 式 (9.11) 以 及 贝 叶 斯 
定理 ， 我 们 看 到 这 个 后 验 概率 分 布 的 形式 为 

















NK 
p(Z | X, p53,7) x [TIN | pn, Di))”™ (0.38) 
n=1 k=1 
因此 后 验 概率 分 布 可 以 在 n 上 进行 分 解 ， 从 而 {zn} 是 独立 的 。 通 过 观察 图 9.6 中 的 有 向 图 然后 使 
用 d- 划 分 准则 ， 很 容易 证 明 这 一 点 。 这 样 ， 在 这 个 后 验 概率 分 布下 ， 指 示 值 zk 的 期 望 为 
Elz k]| 一 > Znk lx [rN (pn | Hg’, Dp )] ne 
Xs ll; [nN (zn | Hj; >;)]"; (9.39) 


TEN (Zn | Kg, Dr) 
a = Y(zng) 
DN (oo ps 


它 就 是 k 分 量 对 于 数据 点 zn 的 责任 。 于 是 ， 完 整数 据 的 对 数 似 然 函数 的 期 望 值 为 











NK 
pzllnp(X, Z| p53,7)] = >》 ,Ynr) {nny + InN (zn | pp, Dx)} (9.40) 
n=1 k=1 


我 们 现在 可 以 按照 下 面 的 方式 进行 处 理 。 首 先 ， 我们 为 参数 1 日 , 允 日 ,日 选 择 某 个 初始 
值 ， 使 用 这 些 初始 值 计算 “ 责 任 ”(E 步 又 ) 。 然 后 我 们 保持 “责任 ”固定 ， 关 于 jx, 允 和 tx 最 
大 化 (9.40) (M 步 又) 。 与 之 前 一 样 ， 这 会 得 到 由 公式 (9.17) 、 (9.19) 和 (9.22) 给 出 
的 1 新, 忆 新 和 新 的 解析 解 。 这 与 之 前 推导 的 高 斯 混合 模型 的 EM 算法 完全 相同 。 当 我 们 在 9.4 节 
证 明 EM 算 法 的 收敛 性 时 ， 我 们 会 更 加 深刻 地 认识 到 完整 数据 的 对 数 似 然 函数 的 期 望 的 作用 。 











9.3.2 ”与 均值 的 关系 


对 比 高 斯 模型 的 EM 算法 与 人 均值 算法 ， 可 以 看 到 二 者 有 很 强 的 相似 性 。K 均 值 算 法 对 数据 
点 的 聚 类 进行 了 硬 分 配 ， 即 每 个 数据 点 只 属于 唯一 的 聚 类 ， 而 EM 算法 基于 后 验 概率 分 布 ， 进 
行 了 一 个 “ 软 " 分 配 。 实 际 上 ,我们 可 以 将 均值 算法 看 成 高 斯 混合 模型 的 EM 算法 的 一 个 特殊 的 
极限 情况 ， 如 下 所 述 。 

考虑 一 个 高 斯 混合 模型 ， 其 中 混合 分 量 的 协 方 差 矩阵 为 cf ，e 是 一 个 被 所 有 分 量 共 享 的 方差 
参数 ，7 是 单位 矩阵 ， 从 而 





1 1 
人 1 | 元 | pl (9.41) 
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我 们 现在 考虑 及 个 这 种 形式 的 高 斯 分 布 组 成 的 混合 模型 的 EM 算法 ， 其 中 我 们 将 c 看 做 一 个 固定 
的 常数 ， 而 不 是 一 个 需要 重新 估计 的 参数 。 根 据 公式 (913) ， 对 于 一 个 特定 的 数据 点 zw， 后 
验 概率 (或 者 责任 ”) 为 | 

rh exp { — lst } 


Tn Hi < 
> 7 T exp (二 


如 果 我 们 考虑 极限 情况 e 一 0， 那 么 我 们 看 到 ， 在 分 母 中 ，||zn 一 pj 上 最 小 的 项 将 会 最 慢 地 趋 近 
于 零 ， 因 此 对 于 数据 点 zw， 只 有 项 7 的 责任 7(znj) 趋 近 于 1， 其 他 的 项 的 责任 7(zmk) 都 趋 近 于 
0。 因 此 ， 在 这 种 极限 情况 下 ， 我 们 得 到 了 对 数据 点 聚 类 的 一 个 硬 分 配 ， 与 均值 算法 相同 ， 从 
而 Y(znx) 一 ?nk， 其 中 mmx 由 公式 (9.2) 定义 。 因 此 ， 每 个 数据 点 都 被 分 配 为 距离 最 近 的 均值 的 
聚 类 。 

这 样 ， 公 式 (9.17) 给 出 的 jx 的 EM 重 估 计 就 简化 为 了 K 均 值 的 结果 (9.4) 。 注 意 ， 混 合 系 
数 (9.22) 的 重 估 计 公 式 仅仅 将 xx 的 值 重新 设置 为 等 于 分 配 到 聚 类 k 中 的 数据 点 的 比例 | 虽然 这 
些 参 数 在 算法 中 不 再 起 作用 。 

最 后 ， 在 极限 e 一 0 的 情况 下 ， 公 式 (9.40) 给 出 的 完整 数据 的 对 数 似 然 函数 变 成 了 





T(znk) = (9.42) 














NS 1 本 
Ezlln p(X, Z | HW, >», 7)] 下 9D D> Drale, 一 /2 让 常数 (9.43) 
n=1 k= 


因此 在 极限 的 情况 下 ， 最 大 化 完整 数据 对 数 似 然 函 数 的 期 望 等 价 于 最 小 化 公式 (9.1) 给 出 
的 KK 均值 算法 的 失真 度量 J。 

注意 ，K 均 值 算法 没有 估计 聚 类 的 协 方差 ， 而 是 只 估计 了 到 类 的 均值 。 一 个 带 有 通常 的 协 方 
差 矩 阵 的 硬 分 配 版 本 的 高 斯 混合 模型 被 称 为 椭圆 KK 均值 算法 (elliptical K-means algorithm) ， 
由 Sung and Poggio (1994) 提出 。 


9.3.3 ” 伯 努 利 分 布 的 混合 


目前 为 止 在 本 章 中 ， 我 们 的 注意 力 集中 于 由 混合 高 斯 模型 描述 的 连续 变量 上 的 概率 分 布 。 作 
为 混合 模型 的 另 一 个 例子 ， 同 时 为 了 在 一 个 不 同 的 问题 中 说 明 EM 算 法 ， 我 们 现在 讨论 由 伯 努 
利 分 布 描述 的 离散 二 值 变量 的 混合 。 这 个 模型 也 被 称 为 潜在 类 别 分 析 (latent class analysis ) 

(Lazarsfeld and Henry, 1968; McLachlan and Peel, 2000) 。 这 个 模型 不 仅 具 有 实际 应 用 的 重要 
性 ， ee 
要 考虑 D 个 二 值 变量 zi 组 成 的 集合 ， 其 中 i = 1,..., DD， 每 个 变量 都 由 一 个 参数 为 ;的 伯 努 利 分 
控制 ， 且 





D 
=|[e (am (9.44) 
2=1 


其 中 z = (x1,...,2XD)? 且 1 = (11,...,1p) 。 我 们 看 到 ,给 定 1 的 条 件 下 ， 各 个 变量 x; 是 独立 
的 。 很 容易 看 出 ， 这 个 分 布 的 均值 和 方差 为 











E[z] = 多 (9.45) 


cov|z| = diag{1i(1 — pi)} (9.40) 
现在 让 我 们 考虑 这 种 分 布 的 有 限 混 合 ， 即 





z | hn -Dnt | px) (9.47) 
其 中 = {ppkjT= {ri.……,NAK}, 上 且 


z | nx) -Ii 一 AI (9.48) 
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这 个 混合 分 布 的 均值 和 方差 为 














K 
7| = >， TEA (9.49) 


KkK 
cov|z] = > (Es 十 Ln} 一 也 
k=1 
其 中 允 = diag{jvxri(1 一 Lki)}。 由 于 协 方差 窍 阵 cov[z] 不 再 是 对 角 和 矩阵 ， 因 此 混合 分 布 可 以 描述 
变量 之 间 的 相关 性 ， 这 与 单一 的 伯 努 利 分 布 不 同 。 
如 果 我 们 有 一 个 数据 集 匀 = {zx1,.……. ,ZN}， 那 么 这 个 模型 的 对 数 似 然 函数 为 


Inp(X | ,7 = by TRD(Zn | Lx | (9.51) 
n=1 


与 之 前 一 样 ， 我 们 看 到 求 和 运算 位 于 对 数 运算 内 部 ， 从 而 最 大 似 然 解 没有 解析 解 。 

我 们 现在 推导 混合 伯 努 利 分 布 的 最 大 化 似 然 函数 的 EM 算法 。 为 了 完成 这 件 事 ， 我 们 
首先 显 式 地 引入 一 个 潜在 变量 z， 它 与 x 的 每 个 实例 相关 联 。 与 高 斯 混合 模型 的 情形 相 
2z 二 (1,.…,ZK)? 是 一 个 二 值 K 维 变量 ， 其 中 只 有 一 个 元 素 等 于 1， 其 余 元 素 等 于 0。 这 样 ， 

定 潜 在 变量 ， 我 们 可 以 写 出 z 的 条 件 概率 分 布 ， 形 式 为 




















zjElz]’ (9.50) 








Z |z,h) -I | x) (9.52) 
而 潜在 变量 的 先 验 概率 分 布 与 高 斯 混合 模型 的 形式 相同 ， 即 
元 ) = TT Tre (9.53) 
大 站 


如 果 我 们 将 p(x | z, 4) 和 p(z | 关 ) 相 乘 ， 然 后 对 z 求 和 ， 我 们 就 恢复 出 了 公式 (9.47) 。 
为 了 推导 EM 算法 ， 我 们 首先 写 出 完整 数据 的 对 数 似 然 函数 ， 形 式 为 


lInp(X,Z | ,7 -Dann 
n=1 k=1 


十 > In jpi + (1 — zn) ln(1 — un)]l 


(9.54) 


其 中 XX = 人 {zn}。 接 下 来 我 们 取 完整 数据 对 数 似 然 函数 关于 潜在 变量 后 验 概 率 分 布 
的 期 望 





= 








Ezlinp(X,Z | 4,7)]= 





Kk 
>， yzne){ ln xx 
Nn k=1 


十 Dom ln ypi + (1 — zni)ln(1 — pa)]} 


J 


(9.55) 








其 中 (znx) = Elznx] 是 给 定数 据点 zn 的 条 件 下 ， 分量 k 的 后 验 概率 分 布 ， 或 者 "责任 "。 在 E 步 又 
中 ， | 叶 斯 定理 计算 ， 形 式 为 
而 人 机 三 2 FE [Li [rp wn | Ri 
2 [lrjpl zn | py)] "3 
TD(2Zm | Hk) 
0 TjD(Zn | Lj) 























(9.50) 
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图 9.10: 伯 努 利 混合 模型 的 例子 。 上 面 一 行 给 出 了 将 手写 数字 数据 集 从 灰 度 图 转化 为 二 值 图 之 后 的 例子 ， 
转化 时 使 用 的 阔 值 为 0.5。 下 面 一 行 中 ， 最 开始 的 三 张 图 像 展示 了 混合 模型 的 三 个 分 量 的 参数 Uki。 作 为 对 
比 ， 我 们 也 使 用 一 个 单一 的 多 元 伯 努 利 分 布 对 同样 的 数据 进行 了 拟 合 ， 同 样 使 用 了 最 大 似 然 方法 。 这 对 
应 于 将 每 个 像素 点 求 平均 ， 结 果 如 下 面 一 行 最 右 侧 的 图 所 示 。 


如 果 我 们 考虑 在 公式 (9.55) 中 对 n 求 和 ， 我 们 看 到 “责任 "只 出 现在 两 项 中 ， 这 两 项 可 以 写成 


Ni = D(zig) (9.57) 
n=1 
nn N 

二 去 Topjmn (9.58) 


其 中 入 :是 与 分 量 k 关 联 的 数据 点 的 有 效 数量 。 在 M 步 又 中 ， 我 们 关于 参数 jv 和 二 最 大 化 完整 数据 
对 数 似 然 函数 的 期 望 。 如 果 我 们 令 公式 (9.55) 关于 jx 的 导数 等 于 零 ， 整 理 可 得 


我 们 看 到 ， 分 量 k 的 均值 组 成 的 集合 等 于 数据 的 加 权 平 均值 ， 权 系数 为 分 量 k 对 于 数据 点 的 " 责 
任 "。 对 于 关于 nx 的 最 大 化 ， 我 们 需要 引入 一 个 拉 格 朗 日 乘 数 来 满足 限制 条 件 >j, mk = 1。 采 用 
与 高 斯 混合 模型 中 类 似 的 步骤 ， 我们 有 





NN 
这 与 直觉 相符 ， 即 分 量 k 的 混合 系数 等 于 数据 集 里 那个 分 量 的 数据 点 所 占 的 比例 。 

注意 ， 与 混合 高 斯 模型 不 同 ， 不 存在 似 然 函数 趋 于 无 穷 大 的 奇异 性 。 我 们 注意 到 似 然 函数 是 
有 界 的 ， 因 为 0 < p(zn | Ab) < 1。 确实 存 在 似 然 函数 趋 于 零 的 奇异 性 ， 但 是 只 要 EM 在 初始 化 
时 没有 选择 一 个 病态 的 起 始点 ， 这 些 点 就 不 会 被 找到 ， 因 为 EM 算法 总 是 增 大 似 然 函数 的 值 ， 直 
到 达到 局 部 极 大 值 。 在 图 9.10 中 ， 我 们 说 明了 用 伯 努 利 混合 模型 对 手写 数字 建 模 的 结果 。 这 里 ， 
数字 的 图 像 被 转化 为 了 二 值 向 量 ， 转 化 的 方法 是 令 所 有 超过 0.5 的 值 等 于 1， 令 其 他 的 值 等 于 0。 
我 们 现在 有 = 600 张 这 样 的 图 像 ， 由 数字 “2”、“3”、“4” 组 成 。 我 们 将 KK = 3 个 伯 努 利 分 布 进行 
混合 ， 运 行 EM 算法 进行 10 轮 迭代 。 混 合 系数 被 初始 化 为 ti = 去 ， 参 数 1; 被 设置 为 随机 值 ， 这 
个 随机 值 服 从 区 间 (0.25, 0.75) 上 的 均匀 分 布 ， 且 满足 限制 2 wx; = 1。 我 们 看 到 ， 三 个 伯 努 利 
分 布 的 混合 能 够 找到 数据 里 里 对 应 于 不 同 数字 的 三 个 聚 类 。 

伯 努 利 分 布 参数 的 共 罗 先 验 是 Beta 分 布 。 我 们 已 经 看 到 一 个 Beta 先 验 分 布 等 价 于 引入 z 的 额 
外 的 有 效 观 测 。 类 似 地 ， 我 们 可 以 引入 伯 努 利 混合 模型 的 先 验 分 布 ， 然 后 使 用 EM 算法 最 大 化 后 

很 容易 将 对 伯 努 利 混合 模型 的 分 析 推 广 到 具有 M > 2 个 状态 的 离散 变量 多 项 式 分 布 的 情形 
、 (2.26) 定义 ) 。 与 之 前 一 样 ， 在 必要 的 情况 下 ， 我 们 可 以 引入 模型 参数 的 狄 利克 雷 先 


Tk (9.60) 





308 
wwaibbt.com DODODDODODOD 


9.3.4 贝 叶 斯 线性 回归 的 EM 算法 


作为 说 明 EM 算 法 应 用 的 第 三 个 例子 ， 我 们 回 到 贝 叶 斯 线性 回归 的 证 据 近似 问题 。 在 3.5.2 
节 ， 我 们 通过 计算 模型 证 据 然后 令 导数 等 于 零 的 方式 得 到 了 超 参数 ac 和 8 的 值 。 我 们 现在 使 用 另 
一 种 寻找 ac 和 有 的 方法 ， 这 种 方法 基于 EM 算法 。 回 忆 一 下 ， 我 们 的 目标 是 关于 a 和 0 最 大 化 由 公 
式 (3.77) 给 出 的 证 据 函 数 p(t | a,6)。 由 于 参数 ww 已 经 被 积分 出 去 ， 因 此 我 们 可 以 将 其 当做 
一 个 潜在 变量 ， 因 此 我 们 可 以 使 用 EM 算法 来 优化 边缘 似 然 函数 。 在 E 步 又 中 ， 我 们 计算 在 给 
定 当 前 的 a 和 6 的 条 件 下 ，w 的 后 验 概率 分 布 ， 然 后 使 用 这 个 找到 完整 数据 对 数 似 然 函数 的 期 
望 。 在 M 步 又 中 ,我们 关于 a 和 6 最 大 化 这 个 量 。 我 们 已 经 推导 出 了 w 的 后 验 概率 分 布 ， 即 公式 

(3.49) 。 这 样 ， 完 整数 据 的 对 数 似 然 函 数 为 


lnp(t,w | 0,8)= lnp(t | w, pb)+Inp(w | 9 (9.61) 


其 中 似 然 函数 p(t | w, 5) 和 先 验 概率 分 布 p(w | a) 分 别 由 公式 (3.10) 和 公式 (3.52) 给 出 。 关 
于 忆 的 后 验 概率 分 布 取 期 望 ， 可 得 


















































i (9.62) 
~ 3 2 lin wr Bo)"] 
令 它 关 于 a 的 导数 等 于 零 ， 我 们 得 到 了 M 步 又 的 重新 估计 方程 
ee 和 (9.63) 








ElwT aw)] MIMN 十 ITr(SN) 





对 于 6， 结 果 类 似 。 

注意 ， 这 个 重新 估计 方程 与 直接 从 证 据 函 数 推导 出 的 对 应 的 结果 (3.92) 的 形式 稍 有 不 同 。 
然而 ， 两 种 形式 都 涉及 到 了 对 一 个 M x M 的 矩阵 进行 计算 、 求 逆 ( 或 者 特征 分 解 ) ， 因 此 在 每 
轮 迭 代 时 的 计算 代价 是 可 比 的 。 

这 两 种 确定 a 的 方法 显然 应 该 收敛 到 同样 的 结果 〈 假 设 它 们 找到 证 据 函 数 的 同一 个 局 部 极 大 
值 ) 。 可 以 用 下 面 的 方法 验证 。 首 先 注 意 到 7 的 定义 为 

M 
1 
Y= M er aTr(SN) (9.64) 








在 证 据 函 数 的 驻 点 处 ， 重 估计 方程 (3.92) 一 定 成 立 ， 因 此 我 们 可 以 将 7 替换 掉 ， 得 到 
aoamN mn =7y7=M—aTr(Sn) (9.65) 


解 出 a， 我 们 得 到 了 公式 (9.63) 的 结果 ， 这 就 是 EM 的 重新 估计 方程 。 

作为 最 后 一 个 例子 ， 我 们 考虑 一 个 密切 相关 的 模型 ， 即 7.2.1 节 讨论 的 用 于 回归 问题 的 相关 向 
量 机 。 那 里 ,我 们 直接 最 大 化 边缘 似 然 函数 来 推导 超 参数 a 和 6 的 重信 计 方程 。 这 里 ， 我 们 考虑 
男 一 种 方法 ， 即 把 权 向 量 w 看 成 一 个 潜在 变量 ， 然 后 使 用 EM 算法 。E 步 又 涉及 到 寻找 权 值 的 后 
验 概率 分 布 ， 这 由 公式 (7.81) 给 出 。 在 M 步 又 中 ,我 们 最 大 化 完整 数据 对 数 似 然 函数 的 期 望 ， 











sw lin{p(t | X10, B)p(w | ao (9.60) 


其 中 期 望 值 是 关于 使 用 旧 的 参数 计算 的 后 验 概率 分 布 进行 计算 的 。 为 了 计算 新 的 参数 值 ， 我 们 
关于 a 和 6 进行 最 大 化 ， 有 





烹 1 
新 - 
02” 一 一 一 一 一 (9.67) 
ea eg 中 2 -1 7 
(8 新 )-1 全 mil| 字 pb 3 Yi (0.68) 





这 些 重 估 计 方 程 在 形式 上 等 价 于 直接 对 边缘 似 然 通 数 进行 最 大 化 得 到 的 重 估计 方程 。 
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图 9.11: 由 公式 (9.70) 给 出 的 分 解 的 说 明 ， 它 对 于 分 布 %G) 的 任意 选择 都 成 立 。 由 于 Kullback-Leibler 散 
度 满 足 KL(q | p) > 0， 因 此 我 们 看 到 L(gq, 9) 是 对 数 似 然 函 数 Inp( 夭 | 9) 的 下 界 。 


9.4 一 般 形 式 的 EM 算法 

期 望 最 大 化 算法 ， 或 者 EM 算法 ， 是 寻找 具有 潜在 变量 的 概率 模型 的 最 大 似 然 解 的 一 种 通 
用 的 方法 (Dempster et al., 1977; MaLachlan and Krishnan, 1997) 。 这 里 ， 我 们 给 出 一 般 形 式 
的 EM 算法 ， 并 且 在 这 个 过 程 中 ,会 证 明 9.2 节 和 9.3 节 在 讨论 高 斯 混合 模型 时 启发 式 地 推导 出 
的 EM 算法 确实 最 大 化 了 似 然 函 数 (Csiszar and Tusnady, 1984; Hathaway, 1986; Neal and Hinton, 
1999) 。 我 们 的 讨论 也 构成 了 变 分 推断 框架 推导 的 基础 。 

考虑 一 个 概率 模型 ， 其 中 我 们 将 所 有 的 观测 变量 联合 起 来 记 作 头 ， 将 所 有 的 隐 含 变量 记 
作 2。 联 合 概率 分 布 p( 瑟 ,2 | 0) 由 一 组 参数 控制 ， 记 作 9。 我 们 的 目标 是 最 大 化 似 然 函 数 


p(X10)= 5 p(X,210) (09.69) 
Z 











这 里 ， 我 们 假设 2 是 离散 的 ， 但 是 当 Z 是 连续 变量 或 者 离散 变量 与 连续 变量 的 组 合 时 ， 方 法 是 
完全 相同 的 ， 只 需 把 求 和 换 成 适当 的 积分 即 可 。 

我 们 假设 直接 最 优化 p(X | 0) 比较 困 难 ， 但 是 最 优化 完整 数据 似 然 函数 p(X, 2 | 9) 就 容易 得 
多 。 挡 下 来， 我 们 引入 一 个 定义 在 六 在 变量 上 的 分 布 <(2)。 我 们 天 到 ， 对 于 任 间 的 (2)， 下 
面 的 分 解 成 立 


Inp(X |0)= £(g,0)+ KL(g | p) (9.70) 
a 
其 中 ， 我们 定义 了 L(g,0) = Sa(2) ln (2) (9.71) 
’ = q(2Z) 
, ,fp(Z1X,0) 
cielD = -Pann{ FD) 67 


注意 ，L(gq,0) 是 概率 分 布 9(2) 的 一 个 泛 函 (关于 泛 函 的 讨论 ， 见 附录 D) ， 并 且 是 参数 9 的 一 个 
函数 。 值 得 仔细 研究 的 是 表达 式 (9.71) 和 〈9.72) 的 形式 ， 特 别 地 ， 需 要 注意 ， 二 者 的 符号 相 
反 ， 并且 C(q, 69) 包含 了 X 和 2 的 联合 概率 分 布 ， 而 KL(d || Pp) 包含 了 给 定 关 的 条 件 下 ，2Z 的 条 件 
概率 分 布 。 为 了 验证 公式 (9.70) 给 出 的 分 解 方式 ， 我 们 首先 使 用 概率 的 乘积 规则 ， 可 得 


lInp(X,Z|10)=lInp(Z | X,0)+Inp(X |0) (9.73) 


然后 代入 L(g, 0) 的 表达 式 。 这 得 到 了 两 项 ， 一 项 消去 了 KL(g | p)， 而 男 一 项 给 出 了 所 需 的 对 数 
似 然 函数 lnp( 和 | 9)， 其 中 我 们 用 到 了 归 一 化 的 概率 分 布 4(2) 的 积分 等 于 1 的 事实 。 

根据 公式 (9.72) ， 我 们 看 到 KL(g | p) 是 a(Z) 和 后 验 概 率 分 布 p(Z | 关 ,0) 之 间 
的 Kullback-Leibler 散 度 。 回忆 一 下 ，Kullback-Leibler 散 度 满 足 KL(g 上 p) > 0， 当 且 仪 
当 gq(Z) = p(Z | X,09) 时 等 号 成 立 。 因 此 ， 根 据 公式 (9.70) ，L(g,0) < Inp( 针 | 90)， 换 句 话 
说 ，L(q,9) 是 ln p(X | 9) 的 一 个 下 界 。 图 9.11 说 明了 公式 (9.70) 的 分 解 。 

EM 算法 是 一 个 两 阶段 的 迭代 优化 算法 ， 用 于 寻找 最 大 似 然 解 。 我 们 可 以 使 用 公式 (9.70) 
来 定义 EM 算法 ， 证 明 它 确 实 最 大 化 了 对 数 似 然 函 数 。 假 设 参数 向 量 的 当前 值 为 9 日。 在 BE 步 又 
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KL(gllp)= 0 


Inp(X|0™) 





图 9.12: EM 算法 的 E 步 又 的 说 明 。g 分 布 被 设置 为 当前 参数 值 9 下 的 后 验 概率 分 布 ， 这 使 得 下 界 上 移 到 与 
对 数 似 然 函 数值 相同 的 位 置 ， 此 时 KL 散 度 为 零 。 





L(g,0™) lInp(X|0™™) 


图 9.13: EM 算法 的 M 步 又 的 说 明 。 分 布 4(2) 保 持 固 定 ， 下 界 L(g, 9) 关于 参数 向 量 9 最 大 化 ， 得 到 修正 
值 9 芭 。 由 于 KL 散 度 非 负 ， 因 此 这 使 得 对 数 似 然 函 数 Inp( 入 | 9) 的 增 量 至 少 与 下 界 的 增 量 相等 。 


中 ， 下 界 L(g, 9 日 ) 关 于 (2) 被 最 大 化 ， 而 6 日 保 持 固定 。 最 大 化 问题 的 解 很 容易 看 出 来 。 我 们 注 
意 到 lnp(X | 9 日) 不 依赖 于 q(Z)， 因 此 L(gq, 9 日) 的 最 大 值 出 现在 Kullback-Leibler 散 度 等 于 零 的 时 
候 ， 换 句 话说 ， 最 大 值 出 现在 q(2) 与 后 验 概率 分 布 p(Z | 和 ,9 日 ) 相 等 的 时 候 。 此 时 ， 下 界 等 于 
对 数 似 然 函 数 ， 如 图 9.12 所 示 。 

在 接 下 来 的 M 步 骤 中 ,分布 q(2) 保 持 固定 ， 下 界 C(q,9) 关 于 9 进行 最 大 化 ， 得 到 了 某 个 新 
值 6 新 。 这 会 使 得 下 界 C 增 大 (除非 已 经 达到 了 极 大 值 ) ， 这 会 使 得 对 应 的 对 数 似 然 函数 增 大 。 
由 于 概率 分 布 g 由 旧 的 参数 值 确定 ， 并 且 在 M 步 又 中 保持 国定 ， 因 此 它 不 会 等 于 新 的 后 验 概率 分 
布 p(Z | 和 ,6 新 )， 从 而 KL 散 度 非 堆 。 于 是 ， 对 数 似 然 函 数 的 增加 量 大 于 下 界 的 增加 量 ， 如 图 
9.13 所 示 。 如 果 我 们 将 q(2) = p(2 | 六,9 日 ) 代 入 公式 (9.71) ， 我 们 会 看 到 ， 在 E 步 又 之 后 ， 下 
界 的 形式 为 


£(g,0)= >_p(Z | X,0N)Inp(X,2Z10)— > _p(Z|X,0N)Inp(Z | X,00) 
ZF (9.74) 
= Q(9,9 上 日 ) 十 常数 


其 中 ， 常 数 就 是 分 布 4 的 炉 ， 因 此 与 9 无 关 。 从 而 在 M 步 又 中 ， 最 大 化 的 量 是 完整 数据 对 数 似 然 
函数 的 期 望 ， 正 如 我 们 之 前 在 混合 高 斯 模型 的 情形 中 看 到 的 那样 。 注 意 ， 我 们 进行 优化 的 变 
量 9 只 出 现在 对 数 运 算 内 部 。 如 果 联 合 概率 分 布 z(2Z, 和 | 9) 由 指数 族 分 布 的 成 员 组 成 ， 或 者 由 指 
数 族 分 布 成 员 的 乘积 组 成 ， 那 么 我 们 看 到 对 数 运算 会 抵消 指数 运算 ， 从 而 使 得 M 步 又 通常 比 最 
大 化 对 应 的 不 完整 数据 对 数 似 然 函 数 p(X | 9) 要 容易 得 多 。 

EM 算法 的 计算 也 可 以 被 看 做 参数 空间 中 的 运算 ， 如 图 9.14 所 示 。 这 里 ， 红 色 曲 线 表 示 (不 
完整 数据 ) 对 数 似 然 函 数 ， 它 的 最 大 值 是 我 们 想 要 得 到 的 。 我 们 首先 选择 某 个 初始 的 参数 
值 9 日 ， 然 后 在 第 一 个 E 步 又 中 ， 我 们 计算 潜在 变量 上 的 后 验 概率 分 布 ， 得 到 了 L(g, 6 昌 ) 的 一 个 
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lInp(X|0) 











! gold Onew 


图 9.14: EM 算法 涉及 到 交替 计算 当前 参数 值 下 的 对 数 似 然 函 数 的 下 界 以 及 最 大 化 下 界 的 值得 到 新 的 参数 
值 。 完 整 的 讨论 见 正文 。 


更 小 的 下 届 ， 它 的 值 等 于 在 9 日 处 的 对 数 似 然 函数 值 ， 用 蓝 色 曲线 表示 。 注 意 ， 下 界 与 对 数 似 然 
函数 在 6 日 处 以 切线 的 方式 连接 ， 因 此 两 条 曲线 的 梯度 相同 。 这 个 界 是 一 个 凹 函数 ， 对 于 指数 族 
分 布 的 混合 分 布 来 说 ， 有 唯一 的 最 大 值 。 在 M 步 又 中 ， 下 界 被 最 大 化 ， 得 到 了 新 的 值 9 新 ， 这 个 
值 给 出 了 比 6 昌 处 更 大 的 对 数 似 然 函 数值 。 接 下 来 的 E 步 骤 构 建 了 一 个 新 的 下 界 ， 它 在 6 新 处 与 对 
数 似 然 函 数 切 线 连 接 ， 用 绿色 曲线 表示 。 

对 于 独立 同 分 布 数据 集 的 特殊 情形 ， 久 由 N 个 数据 点 {x} 组 成 ， 而 Z 由 NN 个 对 应 的 潜在 变 
量 {z%} 组 成 ， 其 中 n = 1,...,N。 根 据 独 立 性 假设 ,我 们 有 p( 入 ,2Z) = [],,p(zn, zn)， 并 且 通 过 
关于 {zn} 求 边缘 概率 分 布 ， 我们 有 p( 羡 ) = T],,p(2n)。 使 用 加 和 规则 和 乘积 规则 ， 我 们 看 到 
在 E 步 又 中 计算 的 后 验 概率 分 布 的 形式 为 


N N 
FIXO= p(X,Z | 0) 要 [1 ;pzn Zn 0) = 2 n,0 9.75 
p( | ) ) zp(X,Z | 0) 3 TI p(z Zn | 0) l= | mh ) , | 


因此 后 验 概率 分 布 也 可 以 关于 n 进 行 分 解 。 在 高 斯 混合 模型 的 情形 中 ， 这 个 结果 意味 着 混合 分 布 
的 每 个 分 量 对 于 一 个 特定 的 数据 点 zn 的 “责任 ”只 与 rn 的 值 和 混合 分 量 的 参数 0 有 关 ， 而 与 其 他 
数据 点 无 关 。 

我 们 已 经 看 到 ，EM 算 法 的 E 步 骤 和 M 步 骤 都 增 大 了 对 数 似 然 函 数 的 一 个 良好 定义 的 下 界 的 
值 ， 并 且 完整 的 EM 循环 会 使 得 模型 的 参数 向 着 使 对 数 似 然 函数 增 大 的 方向 进行 改变 (除非 已 经 
达到 了 一 个 极 大 值 ， 此 时 参数 保持 不 变 ) 。 

我 们 也 可 以 使 用 EM 算法 来 最 大 化 模型 的 后 验 概率 分 布 p(9 | 入 )， 其 中 我 们 已 经 引入 
了 参数 上 的 先 验 概率 分 布 p(6)。 为 了 理解 这 一 点 ， 我 们 注意 到 作为 一 个 6 的 函数 ， 我 们 
有 p(9 | 瑟 ) = 2 二) ， 因 此 











lInp(0 | X)= lnp(0, X)—1lnp(X) (9.70) 
使 用 公式 (9.70) 的 分 解 ， 我 们 有 


Inp(0 | X)= L(g,0)+ KL(g | p)+Inp(0) — 1lnp(X) 
> L(g,0) +Inp(0) — lnp(X) 


其 中 Inp( 关 ) 是 一 个 常数 。 与 之 前 一 样 ， 我们 可 以 交 殖 地 关于 g 和 9 对 右 侧 进行 优化 。 关 于 g 的 优 
化 产生 了 与 标准 EM 算法 相同 的 E 步 又 ， 因 为 4 只 出 现在 L(gq, 90) 中。M 步 又 的 方程 通过 引入 先 验 
项 ln p(O) 进 行 修改 ， 这 通常 只 需要 对 标准 的 最 大 似 然 M 步 又 的 方程 进行 很 小 的 修改 即 可 。 

EM 算法 将 最 大 化 似 然 函 数 这 一 困难 的 问题 分 解 成 了 两 个 阶段 ， 即 E 步 骤 和 M 步 又， 每 个 步骤 
都 很 容易 实现 。 尽 管 这 样 ， 对 于 复杂 的 模型 来 说 ，E 步 又 或 者 M 步 骤 仍 然 无 法 计算 。 这 就 引出 了 
对 EM 算法 的 两 个 扩展 ， 氢 述 如 下 。 


(9.77) 
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推广 EM 算法 (generalized EM algorithm) ， 或 者 简称 GEM 算 法 ， 解 决 的 是 M 步 又 无 法 计算 的 
问题 。 这 个 算法 不 去 关于 9 最 大 化 L(q,9)， 而 是 改变 参数 的 值 去 增 大 L(q,9) 的 值 。 与 之 前 一 样 ， 
由 于 L(g, 9) 是 对 数 似 然 函 数 的 一 个 下 界 ， 因 此 GEM 算 法 的 完整 的 EM 循环 保证 了 对 数 似 然 函 数 
值 的 增 大 〈 除 非 参 数 已 经 对 应 于 一 个 局 部 极 大 值 ) 。 一 种 使 用 GEM 的 方法 是 在 M 步 又 中 使 用 某 
种 非 线性 最 优化 策略 ， 例 如 共 恩 梯度 算法 。 另 一 种 形式 的 GEM 算 法 ， 被 称 为 期 望 条 件 最 大 化 算 
法 (expectation conditional maximization algorithm) ， 或 者 简称 ECM 算 法 ， 涉 及 到 在 每 个 M 步 又 
中 进行 若干 了 具有 限制 条 件 的 最 优化 (Meng and Rubin, 1993) 。 例 如 ， 参 数 可 能 被 划分 为 若干 
组 ， 并 且 M 步 骤 被 划分 成 多 个 步 又， 每 个 步骤 最 优化 一 个 子 集 ， 同 时 保持 其 他 的 子 集 固定 。 

类 似 地 ， 我 们 可 以 用 下 面 的 方法 推广 EM 算法 中 的 E 步 又 : 对 L(q,9) 关 于 gq(Z) 进 行 一 个 部 分 
的 最 优化 而 不 是 完全 的 最 优化 (Neal and Hinton, 1999) 。 正 如 我 们 已 经 看 到 的 ， 对 于 任意 给 定 
的 9 值 ，L(q,0) 关 于 gq(2Z) 有 一 个 唯一 的 最 大 值 ， 它 对 应 于 后 验 概率 分 布 gqg(2) = p(2Z | X,9)， 
并 且 对 于 这 个 g(Z) 的 选择 ， 下 界 L(q, 9) 等 于 对 数 似 然 函数 L(g,9)。 因 此 任何 收敛 于 L(q,09) 的 
全 局 最 大 值 的 算法 都 会 找到 一 个 9 值 ， 这 个 值 也 是 对 数 似 然 函数 lnp( 立 | 9) 的 全 局 最 大 值 。 
只 要 p( 关 ,2 | 09) 是 9 的 一 个 连续 函数 ， 那 么 根据 连续 性 ，L(g,9) 的 任意 一 个 局 部 极 大 值 也 会 
是 Inp( 关 | 09) 的 一 个 局 部 极 大 值 。 

考虑 N 个 独立 数据 点 z1,...,ZN 对 应 于 潜在 变量 zi,...,zN 的 情形 。 联 合 概 率 分 
布 p( 关 ,Z| 0) 可 以 在 数据 点 上 进行 分 解 ， 并 且 这 个 结构 可 以 被 增 量 形式 的 EM 算法 利用 ， 即 在 每 
个 EM 循环 中 ， 只 处 理 一 个 数据 点 。 在 E 步 骤 中 ， 我 们 不 重新 计算 所 有 数据 点 的 -责任 ， 而 是 只 
重新 计算 一 个 数据 点 的 责任 。 似 乎 接 下 来 的 M 步 又 会 需要 涉及 到 所 有 数据 点 的 “责任 "的 计算 。 
但 是 ， 如 果 混 合 的 分 量 是 指数 族 分 布 的 成 员 ， 那 么 责任 -只 出 现在 简单 的 充分 统计 量 之 中 ， 这 
些 量 可 以 高 效 地 更 新 。 例 如 ， 考 虑 高 斯 混合 分 布 的 情形 ， 假 设 我 们 对 数据 点 m 进 行 了 一 个 更 
新 ， 其 中 对 应 的 “责任 ”的 旧 值 和 新 值 分 别 为 7 日 (zmk) 和 7? 新 (zk)。 在 M 步 又 中 ， 所 需 的 充分 统计 
量 可 以 增 量 地 更 新 。 例 如 ， 对 于 均值 来 说 ， 充 分 统计 量 由 公式 (9.17) 和 公式 (9.18) 定义 ， 因 





此 我 们 可 以 得 到 
新 旧 ， (7 新 (zmk) 一 ? 昌 (zmk) 日 
| A (zm — pd) (0.78) 
以 及 | 
和 N 新 = NE 于 ] 新 (zh 一 "日 (zg) (9.79) 


对 应 的 协 方差 和 混合 系数 的 结果 与 此 类 似 。 

因此 E 步 骤 和 M 步 骤 的 计算 时 间 都 与 数据 点 的 总 数 无 关 。 由 于 参数 在 每 个 数据 点 被 使 用 之 后 
进行 修改 ， 而 不 是 等 到 全 部 数据 人 处理 完毕 之 后 才 进 行 义 该 ， 因 此 以 批 处 理 版 本 相 比 ， 这 个 增 量 
版 本 的 收敛 速度 更 快 。 这 个 增 量 算法 中 的 每 个 E 步 又 或 者 M 步 又 都 会 增 大 C(q, 9) 的 值 ， 并 且 正 如 
我 们 之 前 谨 明 的 那样 ， 如 果 算法 收敛 于 L(q,9) 的 一 个 局 部 的 (或 者 全 局 的 ) 最 大 值 ， 那 么 这 会 
对 应 于 对 数 似 然 函 数 ln p( 久 | 9) 的 一 个 局 部 的 (或 者 全 局 的 ) 最 大 值 。 





9.5 ”练习 


(9.1) (*) 考虑 9.1 节 讨论 的 KK 均 值 算法 。 证明， 由 于 离散 指示 器 变量 7 的 集合 的 可 能 赋值 
的 数量 是 有 限 的 ， 且 对 于 每 种 赋值 ，{jw,} 有 一 个 唯一 的 最 优 值 ， 因 此 KK 均 值 算法 已 经 在 有 限 次 
迭代 之 后 收敛 。 

(9.2) (*) 将 2.3.5 节 介绍 的 Robbins-Monro 顺 序 估计 方法 应 用 到 寻找 回归 函数 的 根 的 问题 
中 ， 回 归 函 数 为 公式 (9.1) 中 的 J 关于 jw 的 导数 。 证 明 ， 这 会 产生 出 一 个 随机 的 KK 均值 算法 ， 
其 中 对 于 每 个 数据 点 zw， 最 近 的 代表 向 量 / 必 使 用 公式 (9.5) 进行 更 新 。 

(9.3) (*) 考虑 一 个 高 斯 混合 模型 ， 其 中 潜在 变量 的 边缘 概率 分 布 p(z) 由 公式 (9.10) 给 
出 ， 观 测 变量 的 条 件 概率 分 布 p(z | z) 由 公式 (9.11) 给 出 。 证 明 ， 通 过 在 z 的 所 有 可 能 值 上 
对 p(z)p(z | z) 进 行 求 和 的 方式 得 到 的 边缘 概率 分 布 p(z) 是 一 个 形式 为 (9.7) 的 高 斯 混合 分 布 。 

(9.4) (*) 假设 我 们 希望 使 用 EM 算法 来 最 大 化 一 个 包含 潜在 变量 的 模型 的 参数 p(9 | 久 ) 上 
后 验 概率 分 布 ， 其 中 是 观测 数据 集 。 证 明 ，E 步 骤 与 最 大 似 然 的 情形 相同 ， 而 M 步 骤 中 需要 最 
大 化 的 量 为 8(9, 96 日) + lnp(8)， 其 中 Q@(6,6 晶 ) 由 公式 (9.30) 定义 。 
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(9.5) (*) 考虑 图 9.6 给 出 的 高 斯 混合 模型 的 有 向 图 表示 。 通 过 使 用 8.2 节 讨论 的 4- 划 分 准 
则 ， 证 明 潜在 变量 的 后 验 概率 分 布 可 以 关于 不 同 的 数据 点 分 解 ， 即 


N 
p(Z|X,p,5,7)= [oz | zn, p53,7) (9.80) 


n=1 


(9.6) (3*) 考虑 高 斯 混合 模型 的 一 个 具体 的 情形 ， 其 中 各 个 分 量 的 协 方差 矩阵 丈 k 全 部 被 
限制 为 一 个 共同 的 值 互 。 在 这 个 模型 下 ， 推 导 最 大 化 似 然 函 数 的 EM 方程 。 

(9.7) (*) 对 于 高 斯 混合 模型 ， 验 证 完整 数据 对 数 似 然 函数 (9.36) 的 最 大 化 过 程 会 产生 
出 下 面 的 结果 : 每 个 分 量 的 均值 和 协 方差 独立 地 通过 对 应 分 组 的 数据 点 进行 调节 ， 混 合 系数 为 
每 组 的 数据 点 的 比例 。 

(9.8) (*) 证 明 ， 如 果 我 们 关于 pw 最 大 化 (9.40) ， 同 时 保持 "责任"Y(znx) 固 定 ， 那 么 我 们 
可 以 得 到 由 公式 (9.17) 给 出 的 解析 解 。 

(9.9) ”(*) 证 明 ， 如 果 我 们 关于 :和 7 最 大 化 (9.40) ， 同 时 保持 责任 “7(znb) 固 定 ， 那 
么 我 们 可 以 得 到 由 公式 (9.19) 和 “9.22) 给 出 的 解析 解 。 

(9.10) (*) 考虑 一 个 由 下 面 的 混合 概率 分 布 给 出 的 概率 密度 模型 


KkK 
p(z) = >》 mkp(z | 月 (0.81) 
k=1 


并 且 假 设 我 们 将 z 划 分 为 两 部 分 ， 即 z = (za, x2。)。 证 明 条 件 概率 分 布 p(x6 | za) 本 身 是 一 个 混合 
概率 分 布 。 寻 找 混合 系数 以 及 分 量 概率 密度 的 表达 式 。 

(9.11) (*) 在 9.3.2 节 ， 我 们 得 到 了 高 斯 混合 模型 的 到 均值 方法 和 EM 方法 的 关系 ， 方 法 是 
考虑 一 个 混合 模型 ， 它 的 所 有 的 分 量 的 协 方差 为 cf。 证 明 ， 在 极限 e 一 0 的 条 件 下 ， 由 公式 
(9.40) 给 出 的 最 大 化 这 个 模型 的 完整 数据 对 数 似 然 函数 的 期 望 值 等 价 于 最 小 化 公式 (9.1) 给 
出 的 天 均 值 算法 的 失真 度量 J。 

(9.12) (*) 考虑 一 个 混合 分 布 ， 形 式 为 


Kk 
p(x) = 》 mkp(Z | k) (9.82) 
k=1 





其 中 z 的 元 素 可 以 是 离散 的 或 者 连续 的 或 者 二 者 的 组 合 。 将 p(x | 有) 的 均值 和 方差 分 别 记 
作 jw 和 忆 k。 证 明 ， 混 合 分 布 的 均值 和 方差 为 (9.49) 和 “(9.50) 。 

(9.13) (Cs%) 使 用 EM 算法 的 重 估计 方程 ， 证 明 ， 对 于 一 个 伯 努 利 混合 分 布 ， 且 它 的 参数 值 
被 设置 为 了 对 应 于 似 然 函数 最 大 值 的 那个 值 ， 这 个 伯 努 利 混合 分 布 具 有 下 面 的 性 质 














1] 
E[z| = ey 三 元 (9.83) 
n=1 


证 明 ， 如 果 这 个 模型 的 参数 的 初始 化 使 得 所 有 的 分 量具 有 同样 的 均值 1 = 及， 其 
中 有 三 1 天， 那么 对 于 初始 混合 系数 的 任意 选择 ，EM 都 会 在 一 轮 兴 代 之 后 收敛 ， 并 且 这 个 
解 满足 iu = 元。 注意 ， 这 表示 混合 模型 的 一 个 退化 形式 ， 其 中 所 有 的 分 量 都 是 相同 的 。 在 实际 
中 ， 我 们 通过 使 用 合适 的 初始 化 来 试图 避免 这 样 的 解 。 

(9.14) (*) 考虑 伯 努 利 分 布 的 潜在 变量 和 观测 变量 的 联合 概率 分 布 ， 它 通过 计算 公式 
(9.52) 给 出 的 p(x | z,p) 和 公式 〈9.53) 给 出 的 p(z | 区 ) 的 乘积 的 方式 获得 。 证明， 如 果 我 们 关 
于 z 对 这 个 联合 概率 分 布 积分 或 求 和 ， 那 么 我 们 就 得 到 了 公式 (9.47) 。 

《9.15) (*) 证明， 如 果 我 们 关于 必 对 伯 努 利 混合 分 布 的 完整 数据 对 数 似 然 函 数 的 期 户 
(9.55) 进行 最 大 化 ,那么 我 们 会 得 到 M 步 又 方程 〈9.59) 。 

(9.16) (*) 证 明 ， 如 果 我 们 关于 混合 系数 从 对 伯 努 利 混合 分 布 的 完整 数据 对 数 似 然 函 数 
的 期 望 〈9.55) 进行 最 大 化 ， 通 过 一 个 拉 格 朗 日 乘 数 来 强制 满足 加 和 限制 ， 那 么 我 们 会 得 到 M 步 
又 方程 (9.60) 。 
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《9.17) 《49 证 明 ， 由 于 离散 变量 zn 的 限制 条 件 0 < p(zn | px) < 1 的 结果 ， 伯 努 利 混合 分 
布 的 不 完整 数据 的 对 数 似 然 函 数 具 有 上 界 ， 因 此 不 存在 似 然 函数 趋 于 无 穷 大 的 奇异 性 。 

(9.18) ”(**) 考虑 9.3.3 节 讨论 的 伯 努 利 混合 模型 ， 以 及 由 公式 (2.13) 给 出 的 每 个 参数 向 
量 /1 上 的 Beta 先 验 分 布 P(Akz | ak,bk)， 以 及 公式 (2.38) 给 出 的 狄 利 克 雷 先 验 分 布 pr | a)。 推 
导 最 大 化 后 验 概 率 p(p, 7 | 入) 的 EM 算法 。 

(9.19) ”(**) 考虑 一 个 D 维 向 量 x*， 它 的 每 个 分 量 i 本 身 是 一 个 必 阶 多 项 式 变量 ， 从 而 z 是 
一 个 二 值 向 量 ， 分 量 为 zz ， 其 中 = 1,.….,D 且 j = 1,.….,MM， 满 足 限制 条 件 >; 25 = 1， 对 于 
所 有 的 ;都 成 立 。 假 设 这 些 变 量 的 概率 分 布 由 2.2 节 讨论 的 离散 多 项 式 分 布 混合 而 成 ， 即 








K 
p(z) = > rep(z | px) (9.84) 
k=1 
其 中 
D M 
pz | px) = > Dury (0.85) 
i=1 j=1 


参数 wii 表示 概率 p(ziz = 1 | px)， 必 须 满足 0 < yri; < 1 以 及 限制 条 件 >j; wri; = 1 对 于 所 有 
的 k 和 和 i。 给 定 一 个 观测 数据 集 {xzn}， 其 中 n = 1,.….,N， 推 导 使 用 最 大 似 然 方 法 对 这 个 概率 分 
布 的 混合 系数 7 和 分 量 参 数 jsj 进行 最 优化 的 EM 算法 的 E 步 骤 和 M 步 又 方程 。 

(9.20) “(*) 证 明 贝 叶 斯 线性 回归 模型 的 完整 数据 最 大 似 然 函数 的 期 望 (9.62) 的 最 大 化 过 
程 会 产生 公式 (9.63) 给 出 的 a 的 M 步 又 重新 估计 的 结果 。 

(9.21) ”GC*) 使 用 3.5 节 的 模型 证 据 框架 ， 推 导 贝 叶 斯 线性 回归 模型 的 参数 8 的 M 步 又 重新 
估计 方程 ， 类 似 于 公式 (9.63) 给 出 的 a 的 结果 。 

(9.22) ”GC*) 通过 最 大 化 公式 (9.66) 给 出 的 完整 数据 对 数 似 然 函数 的 期 望 ， 推 导 用 于 重 
新 估计 回归 的 相关 向 量 机 的 超 参数 的 M 步 又 方程 (9.67) 和 (9.68) 。 

(9.23) ”GC*) 在 7.2.1 节 ， 我 们 使 用 对 边缘 似 然 函 数 的 直接 最 大 化 来 推导 用 于 寻找 回 
归 RVM 的 超 参 数 a 和 6 的 值 的 重新 估计 方程 (7.87) 和 (7.88) 。 类 似 地 ， 在 9.3.4 节 ， 我 们 使 
用 EM 算法 来 最 大 化 相同 的 边缘 似 然 函数 ， 得 到 了 重新 估计 方程 (9.67) 和 “(9.68) 。 证 明 , 在 
任何 驻 点 处 ， 这 两 组 重 估计 方程 在 形式 上 是 等 价 的 。 

(9.24) (*) 验证 关系 (9.70) ,其 中 L(g,0) 和 KL(g | p) 分 别 由 公式 (9.71) 和 公式 (9.72) 
定义 。 

(9.25) (*) 证 明 ， 在 点 9 = 6 处 ， 公 式 (9.71) 给 出 的 下 界 L(g,0) 关 于 9 的 梯度 与 似 
然 Inp( 叉 | 0) 的 梯度 相同 ， 其 中 对 于 下 界 来 说 ,gq(2) = p(2Z | XX,9)。 

(9.26) (*) 考虑 混合 高 斯 分 布 的 EM 算法 的 增 量 形式 ， 其 中 “责任 "只 对 于 一 个 特定 的 数据 
点 zm 进行 重新 计算 。 从 M 步 又 公式 (9.17) 和 “(9.18) 开始 ， 推 导 更 新 分 量 均 值 的 结果 (9.78) 
和 (9.79) 。 

(9.27) (G+) 在 高 斯 混合 模型 中 ， 当 “责任 ” 增 量 地 被 更 新 时 ， 推 导 更 新 协 方差 矩阵 和 混合 
系数 的 M 步 又 的 公式 ， 类 似 于 更 新 均值 的 结果 (9.78) 。 
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10 近似 推断 


在 概率 模型 的 应 用 中 ， 一 个 中 心 任务 是 在 给 定 观 测 ( 可 见 ) 数据 变量 针 的 条 件 下 ， 计 算 潜在 
变量 Z 的 后 验 概率 分 布 p(2Z | 和 )， 以 及 计算 关于 这 个 概率 分 布 的 期 望 。 模 型 可 能 也 包含 某 些 确 
定性 参数 ， 我 们 现在 不 考虑 它 。 模 型 也 可 能 是 一 个 纯粹 的 贝 叶 斯 模型 ， 其 中 任何 未 知 的 参数 都 
有 一 个 先 验 概率 分 布 ， 并 且 被 整合 到 了 潜在 变量 集合 中 ， 记 作 向 量 Z。 例 如 ， 在 EM 算法 中 ， 我 
们 需要 计算 完整 数据 对 数 似 然 函 数 关于 潜在 变量 后 验 概率 分 布 的 期 望 。 对 于 实际 应 用 中 的 许多 
模型 来 说 ， 计 算 后 验 概率 分 布 或 者 计算 关于 这 个 后 验 概率 分 布 的 期 望 是 不 可 行 的 。 这 可 能 是 由 
于 潜在 空间 的 维度 太 高， 以 至 于 无 法 直接 计算 ,或 者 由 于 后 验 概率 分 布 的 形式 特别 复杂 ， 从 而 
期 望 无 法 解析 地 计算 。 在 连续 变量 的 情形 中 ， 需 要 求解 的 积分 可 能 没有 解析 解 ， 而 空间 的 维度 
和 被 积 函数 的 复杂 度 可 能 使 得 数值 积分 变 得 不 可 行 。 对 于 离散 变量 ， 求 边缘 概率 的 过 程 涉及 到 
对 隐 含 变量 的 所 有 可 能 的 配置 进行 求 和 。 这 个 过 程 虽 然 原 则 上 总 是 可 以 计算 的 ， 但 是 我 们 在 实 
际 应 用 中 经 常 发 现 ， 隐 含 状 态 的 数量 可 能 有 指数 多 个 ， 从 而 精确 的 计算 所 需 的 代价 过 高 。 

在 这 种 情况 下 ， 我 们 需要 借助 近似 方法 。 根 据 近 似 方法 依赖 于 随机 近似 还 是 确定 近似 ， 方 法 
大 体 分 为 两 大 类 。 随 机 方法 ， 例 如 第 11 章 介绍 的 马尔 科 夫 链 蒙 特 卡 罗 方 法 ， 使 得 贝 叶 斯 方法 能 
够 在 许多 领域 中 广泛 使 用 。 这 些 方法 通常 具有 这 样 的 性 质 : 给 定 无 限 多 的 计算 资源 ， 它 们 可 以 
生成 精确 的 结果 ， 近 似 的 来 源 是 使 用 了 有 限 的 处 理 时 间 。 在 实际 应 用 中 ， 取 样 方法 需要 的 计算 
量 会 相当 大 ， 经 常 将 这 些 方法 的 应 用 限制 在 了 小 规模 的 问题 中 。 并 且 ， 判 断 一 种 取样 方法 是 否 
生成 了 服从 所 需 的 概率 分 布 的 独立 样本 是 很 困难 的 。 

本 章 中 ， 我 们 介绍 了 一 系列 的 确定 性 近似 方法 ， 有 些 方法 对 于 大 规模 的 数据 很 适用 。 这 些 方 
法 基于 对 后 验 概 率 分 布 的 解析 近似 ， 例 如 通过 假设 后 验 概 率 分 布 可 以 通过 一 种 特定 的 方式 分 
解 ， 或 者 假设 后 验 概率 分 布 有 一 个 具体 的 参数 形式 ， 例 如 高 斯 分 布 。 对 于 这 种 情况 ， 这 些 方法 
永远 无 法 生成 精确 的 解 ， 因 此 这 些 方法 的 优点 和 缺点 与 取样 方法 是 互补 的 。 

在 4.4 节 中 ， 我 们 讨论 了 拉 普 拉 斯 近似 ， 它 基于 对 概率 分 布 的 峰值 ( 即 ， 最 大 值 ) 的 局 部 高 
斯 近似 。 这 里 ， 我 们 考虑 一 类 近似 方法 ， 被 称 为 变 分 推断 (variational inference) 或 者 变 分 贝 叶 
斯 (variational Bayes) ， 它 使 用 了 更 加 全 局 的 准则 ， 并 且 被 广泛 应 用 于 实际 问题 中 。 我 们 最 后 
简要 介绍 另 一 种 变 分 的 框架 ， 被 称 为 期 望 传播 (expectation propagation) 。 





10.1 变 分 推 斯 


变 分 的 方法 起 源 于 18 世 纪 的 欧 拉 、 拉 格 朗 日 ， 以 及 其 他 的 关于 变 分 法 (calculus of 
variations) 的 研究 。 标 准 的 微 积 分 关注 的 是 寻找 函数 的 导数 。 我 们 可 以 将 函数 想象 为 一 个 映 
射 ， 这 个 映射 以 一 个 变量 的 值 作 为 输入 ， 返 回 函 数值 作为 输出 。 函 数 的 导数 描述 了 当 输 入 变量 
有 一 个 无 限 小 的 变化 时 ， 输 出 值 如 何 变 化 。 类 似 地 ， 我 们 可 以 将 泛 函 (functional) 作为 一 个 映 
射 ， 它 以 一 个 通 数 作为 输入 ， 返 回 泛 函 的 值 作为 输出 。 一 个 例子 是 炉 五 p]， 它 的 输入 是 一 个 概 
率 分 布 p(x)， 返 回 下 面 的 量 


Hlp| = - /ra lInp(x) dz (10.1) 


作为 输出 。 我 们 可 以 引入 泛 函 的 导数 (functional derivative) 的 概念 ， 它 表达 了 输入 函数 产生 无 
穷 小 的 改变 时 ， 泛 函 的 值 的 变化 情况 (Feynman et al., 1964) 。 变 分 法 的 规则 与 标准 的 微 积分 规 
则 很 相似 ， 在 附录 D 中 讨论 。 许 多 问题 可 以 表示 为 最 优化 问题 ， 其 中 需要 最 优化 的 量 是 一 个 泛 
函 。 研 究 所 有 可 能 的 输入 函数 ， 找 到 最 大 化 或 者 最 小 化 泛 函 的 函数 就 是 问题 的 解 。 变 分 方法 有 
很 广泛 的 适用 性 ， 包 括 有 限 元 方法 (Kapur, 1989) 和 最 大 炉 方法 (Schwarz, 1988) 。 

虽然 变 分 方法 本 质 上 没有 任何 近似 的 东西 ， 但 是 它们 通常 会 被 用 于 寻找 近似 解 。 寻 找 近似 解 
的 过 程 可 以 这 样 完成 : 限制 需要 最 优化 算法 搜索 的 函数 的 范围 ， 例 如 只 考虑 二 次 函数 ， 或 者 考 
虑 由 固定 的 基 枯 数 线性 组 合 而 成 的 函数 ， 其 中 只 有 线性 组 合 的 系数 可 以 发 生变 化 。 在 概率 推断 
的 应 用 中 ， 限 制 条 件 的 形式 可 以 是 可 分 解 的 假设 (Jordan et al., 1999; Jaakkola, 2001) 。 

现在 ， 让 我 们 详细 讨论 变 分 最 优化 的 概念 如 何 应 用 于 推断 问题 。 假 设 我 们 有 一 个 纯粹 的 贝 叶 
斯 模型 ， 其 中 每 个 参数 都 有 一 个 先 验 概率 分 布 。 这 个 模型 也 可 以 有 潜在 变量 以 及 参数 ， 我 们 会 
把 所 有 潍 在 变量 和 参数 组 成 的 集合 记 作 儿 。 类 似 地 ， 我 们 会 把 所 有 观测 变量 的 集合 记 作 对 。 例 
如 ， 我们 可 能 有 个 独立 同 分 布 的 数据 ， 其 中 X = {xz1,..….,ZN} 且 2Z = {z1,.…….,zN}。 我 们 的 
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图 10.1: 对 于 之 前 在 图 4.14 中 考虑 过 的 例子 进行 变 分 近似 的 结果 。 左 图 给 出 了 原始 的 概率 分 布 (黄色 ) 以 
及 拉 普 拉 斯 近似 红色 ) 和 变 分 近似 (绿色) ， 右 图 给 出 了 对 应 曲线 的 负 对 数 。 


概率 模型 确定 了 联合 概率 分 布 p( 关 ,2Z)， 我 们 的 目标 是 找到 对 后 验 概率 分 布 p(2Z | 闫 ) 以 及 模型 证 
据 p( 针 ) 的 近似 。 与 我 们 关于 EM 的 讨论 相同 ,我们 可 以 将 对 数 边缘 概率 分 解 ， 即 








Inp(X)= L(g) + KL(g | 7) (10.2) 
ee 
其 中 我 们 定义 了 ye 
L(g) = / a2) | gD) jz (10.3) 
sialD=- /aan {az (0 


这 与 我 们 关于 EM 的 讨论 的 唯一 的 区 别 是 参数 向 量 9 不 再 出 现 ， 因 为 参数 现在 是 随机 变量 ， 被 整 
合 到 了 2 中 。 由 于 本 章 中 我 们 主要 感 兴趣 的 是 连续 变量 ， 因 此 我 们 在 这 个 分 解 的 公式 中 使 用 了 
积分 而 不 是 求 和 。 但 是 ， 如 果 某 些 变量 或 者 全 部 的 变量 都 是 离散 变量 ， 那 么 分 析 过 程 不 变 ， 只 
需 根 据 需 要 把 积分 替换 为 求 和 即 可 。 与 之 前 一 样 ， 我 们 可 以 通过 关于 概率 分 布 4(QG) 的 最 优化 来 
使 下 界 A(q) 达 到 最 大 值 ， 这 等 价 于 最 小 化 KL 散 度 。 如 果 我 们 允许 任意 选择 q(2Z)， 那 么 下 界 的 最 
大 值 出 现在 KL 散 度 等 于 零 的 时 刻 ， 此 时 gq(2Z) 等 于 后 验 概率 分 布 p(2Z | 关 )。 人 然而， 我 们 假定 在 需 
要 处 理 的 模型 中 ， 对 真实 的 概率 分 布 进行 操作 是 不 可 行 的 。 

于 是 ， 我 们 转 而 考虑 概率 分 布 4(Q) 的 一 个 受 限制 的 类 别 ， 然 后 寻找 这 个 类 别 中 使 得 KL 散 度 
达到 最 小 值 的 概率 分 布 。 我 们 的 目标 是 充分 限制 a(2Z) 可 以 取得 的 概率 分 布 的 类 别 范围 ， 使 得 这 
个 范围 中 的 所 有 概率 分 布 都 是 可 以 处 理 的 概率 分 布 。 同 时 ， 我 们 还 要 使 得 这 个 范围 充分 大 、 充 
分 灵活 ， 从 而 它 能 够 提供 对 真实 后 验 概率 分 布 的 一 个 足够 好 的 近似 。 需 要 强调 的 是 ， 施 加 限制 
条 件 的 唯一 目的 是 为 了 计算 方便 ， 并且 在 这 个 限制 条 件 下 ， 我 们 应 该 使 用 尽 可 能 丰富 的 近似 松 
率 分 布 。 特 别 地 ， 对 于 高 度 灵活 的 概率 分 布 来 说 ， 没 有 “过 拟 合 "现象 。 使 用 灵活 的 近似 仅仅 使 
得 我 们 更 好 地 近似 真实 的 后 验 概率 分 布 。 

限制 近似 概率 分 布 的 范围 的 一 种 方法 是 使 用 参数 概率 分 布 4(2Z | w) ， 它 由 参数 集合 w 控 制 。 
这 样 ， 下 界 C(g) 变 成 了 w 的 函数 ， 我 们 可 以 利用 标准 的 非 线性 最 优化 方法 确定 参数 的 最 优 值 。 
图 10.1 给 出 了 这 种 方法 的 一 个 例子 ， 其 中 变 分 分 布 是 一 个 高 斯 分 布 ， 并 且 我 们 已 经 关于 均值 和 协 
方差 进行 了 最 优化 。 





10.1.1 分 解 概率 分 布 


这 里 ， 我 们 考虑 另 一 种 方法 ， 这 种 方法 里 ， 我 们 限制 概率 分 布 q(2) 的 范围 。 假 设 我 们 将 2 的 
元 素 划 分 成 阁 干 个 互 不 相交 的 组 ， 记 作 2Zi;， 其 中 i = 1,.….,M。 然 后 ， 我 们 假定 q 分 布 关于 这 些 
分 组 可 以 进行 分 解 ， 即 


M 
a(2)= | [a(2;) (10.5) 
二] 
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需要 强调 的 是 ， 我 们 关于 概率 分 布 没 有 做 更 多 的 假设 。 特 别 地 ， 我 们 没有 限制 各 个 因 
子 d(25) 的 函数 形式 。 变 分 推 新 的 这 个 分 解 的 形式 对 应 于 物理 学 中 的 一 个 近似 框架 ， 叫 做 平均 
场 理 论 (mean field theory) (Parisi, 1988) 。 

在 所 有 具有 公式 (10.5) 的 形式 的 概率 分 布 4(Z) 中 ， 我 们 现在 寻找 下 界 L(9) 最 大 的 概率 分 
布 。 于 是 ， 我 们 希望 对 L(q) 关 于 所 有 的 概率 分 布 q;(2i) 进 行 一 个 自由 形式 的 ( 变 分 ) 最 优化 。 
我 们 通过 关于 每 个 因子 进行 最 优化 来 完成 整体 的 最 优化 过 程 。 为 了 完成 这 一 点 ， 我 们 首先 将 公 
式 (10.5) 代入 公式 (10.3) ， 然 后 分 离 出 依赖 于 一 个 因子 qj(2;) 的 项 。 为 了 记号 的 简洁 ， 我 们 
简单 地 将 qj(2;) 记 作 g;， 这 样 我 们 有 


L(gq) = /Tl {rac -Zoo| dZ 


?和 7 





一 f winB(X, 2) dZ; - /um d2j 十 常数 
其 中 ,我们 定义 了 一 个 新 的 概率 分 布 5( 关 ,2Z;)， 形 式 为 
Inj(X, 2;) = EK; jllnp(X,2)] 十 常数 (10.7) 


这 里 ， 记 号 Bijyj[… | 表示 关于 定义 在 所 有 zi(i 关 7)) 上 的 q 概 率 分 布 的 期 望 ， 即 






































Bizjlln p(X, 2Z)] = / nox, 2 IIe d2; (10.8) 
i 


现在 假设 我 们 保持 {qi;z;} 固 定 ， 关 于 概率 分 布 g;(2;) 的 所 有 可 能 的 形式 最 大 化 公 
式 (10.6) 中 的 L(gq)。 这 很 容易 做 ， 因 为 我 们 看 到 公式 (10.6) 是 qj(2;) 和 V5( 关 ,2;) 之 间 
的 Kullback-Leibler 散 度 的 负 值 。 因 此 ， 最 大 化 公式 (10.6) 等 价 于 最 小 化 Kullback-Leibler 散 度 ， 
且 最 小 值 出 现在 oj(27) = F(X, 2;) 的 位 置 。 于 是 ， 我 们 得 到 了 最 优 解 几 (2;) 的 一 般 的 表达 式 ， 
形式 为 











In gy(2j) = Eiyjllinp( 久 ,2)]| 十 常数 (10.9) 


很 值得 花 一 些 时 间 研 究 一 下 解 的 形式 ， 因 为 它 是 变 分 方法 应 用 的 基础 。 这 个 解 表明 ， 为 了 得 到 
因子 wj 的 最 优 解 的 对 数 ， 我 们 只 需 考虑 所 有 隐 含 变量 和 可 见 变量 上 的 联合 概率 分 布 的 对 数 ， 然 
后 关于 所 有 其 他 的 因子 {qi;} 取 期 望 即 可 ， 其 中 i 取 j。 

公式 (10.9) 中 的 可 加 性 常数 通过 对 概率 分 布 of(2;) 进 行 归 一 化 的 方式 来 设 定 。 因 此 ， 如 果 
我 们 取 两 侧 的 指数 ， 然 后 归 一 化 ， 我 们 有 








和 exp (E; jllnp(X, 2)]) 
/ exp(EizjlInp(X, 2)]) d2; 


在 实际 应 用 中 ， 我 们 会 发 现 ， 更 方便 的 做 法 是 对 公式 (10.9) 进行 操作 ， 然 后 在 必要 的 时 候 ， 通 
过 观察 的 方式 恢复 出 归 一 化 系数 。 这 一 点 通过 下 面 的 例子 就 会 变 得 逐渐 清晰 起 来 。 

由 公式 (10.9) 给 定 的 方程 的 集合 (其 中 7 = 1,.….,M) 表示 在 概率 能 够 进行 分 解 这 一 限制 
条 件 下 ， 下 界 的 最 大 值 满足 的 一 组 相 容 的 条 件 。 然 而 ， 这 些 方程 并 没有 给 出 一 个 显 式 的 解 ， 
为 最 优化 of(27) 的 公式 (10.9) 的 右 侧 表达 式 依赖 于 关于 其 他 的 因子 qi(271)( 夭 忆 计算 的 期 望 。 
于 是 ， 我 们 会 用 下 面 的 方式 寻找 出 一 个 相 容 的 解 : 首先 ， 恰 当地 初始 化 所 有 的 因子 qi(2i) 然 后 
在 各 个 因子 上 进行 循环 ， 每 一 轮 用 一 个 修正 后 的 估计 来 灰 换 当前 因子 。 这 个 修正 后 的 估计 由 公 
式 (10.9) 的 右 侧 给 出 ， 计 算 时 使 用 了 当前 对 于 所 有 其 他 因子 的 估计 。 算 法 保证 收敛 ， 因 为 下 界 
关于 每 个 因子 qi;(2i;) 是 一 个 凸 隙 数 (Boyd and Vandenberghe, 2004) 。 














qj (2;) 
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10.1.2 分 解 近似 的 性 质 


我 们 的 变 分 推断 的 方法 基于 的 是 真实 后 验 概率 分 布 的 分 解 近似 。 让 我 们 现在 考虑 一 下 使 用 分 
解 概率 分 布 的 方式 近似 一 个 一 般 的 概率 分 布 的 问题 。 首 先 ， 我 们 讨论 使 用 分 解 的 高 斯 分 布 近似 
一 个 高 斯 分 布 的 问题 ， 这 会 让 我 们 认识 到 在 使 用 分 解 近似 时 会 引入 的 不 准确 性 有 哪些 类 型 。 考 
虑 两 个 相关 的 变量 z = (21, z2) 上 的 高 斯 分 布 p(z) = NN(z | 凡 A- )， 其 中 均值 和 精度 的 元 素 为 


/nu _ /A Ai2 
a 有 be wy 
并 且 由 于 精度 矩阵 的 对 称 性 ，A21 = A12。 现 在 ,假设 我 们 希望 使 用 一 个 分 解 的 高 斯 分 
布 q(z) = q1( 氏 )q2(z2) 来 近似 这 个 分 布 。 首 先 ， 我 们 使 用 一 般 的 结果 (10.9) 来 寻找 最 优 因 
子 ai(21) 的 表达 式 。 在 寻找 表达 式 的 过 程 中 ， 我 们 注意 到 ， 在 等 式 右 侧 ， 我 们 只 需要 保留 哪些 
与 丸 有 函数 依赖 关系 的 项 即 可 ， 因 为 所 有 其 他 的 项 都 可 以 被 整合 到 归 一 化 常数 中 。 因 此 我 们 有 


lngi(21) 三 下 z[inp(z)] 十 常数 

















一 下 2 -3 -HA 一 ( 红 一 M1)Ai2(z2 一 J2)| 十 常数 (10.11) 
二 -Al 十 21HUIAll -21Al2( 了 下 [zz] 一 12) 十 常数 

接 下 来 ， 我们 观察 到 这 个 表达 式 的 右 侧 是 2 的 一 个 二 次 函数 ， 因 此 我 们 可 以 将 q* (zi) 看 成 一 个 

高 斯 分 布 。 值 得 强调 的 是 ， 我 们 不 假设 9(%) 是 高 斯 分 布 ， 而 是 通过 对 所 有 可 能 的 分 布 9(%) 上 

的 KL 散 度 的 变 分 最 优化 推导 出 了 这 个 结果 。 还 要 注意 ， 我 们 不 需要 显 式 地 考虑 公式 (10.9) 中 

的 可 加 性 常数 ， 因 为 它 表示 归 一 化 常数 。 如 果 需 要 的 话 ， 这 个 常数 可 以 在 计算 的 最 后 阶段 通过 

观察 的 方式 得 到 。 使 用 配 平 方 的 方法 ， 我 们 可 以 得 到 这 个 高 斯 分 布 的 均值 和 方差 ， 有 



































qr(21) = N(z1 | mi, AD) (10.12) 
其 中 
m1 二 Wl1 一 AT1 A12( EB [zo| 一 M2) (10.13) 
根据 对 称 性 ，q;(z2) 也 是 一 个 高 斯 分 布 ， 可 以 写成 
qi(z2) =N(z2 | m2, Az2 ) (10.14) 
其 中 
m2 一 /2 一 A3 A21( E[z1| 一 /1) (10.15) 














注意 ， 这 些 解 是 相互 偶合 的 ， 即 q* (#1) 依赖 于 关于 gq*(z2) 计 算 的 期 望 ， 反 之 亦 然 。 通 常 ， 我 们 这 
样 解决 这 个 问题 : 将 变 分 解 看 成 重 估计 方程 ， 然 后 在 变量 之 间 循 环 ， 更 新 这 些 解 ， 直 到 满足 某 
个 收敛 准则 。 我 们 稍 后 会 给 出 一 个 例子 。 但 是 这 里 ， 我 们 注意 到 这 个 问题 是 相当 简单 的 ， 
为 可 以 找到 一 个 解析 解 。 特 别 地 ， 由 于 Ell] = mi 且 Elz2] = m2， 因 此 我 们 看 到 ， 如 果 我 们 
取 E[z1] = W141 且 Elz2] = 12， 那 么 这 两 个 方程 会 得 到 满足 。 并 且 很 容易 证 明 ， 只 要 概率 分 布 非 奇 
异 ， 那 么 这 个 解 是 唯一 解 。 这 个 结果 如 图 10.2(@) 所 示 。 我 们 看 到 ， 均 值 被 正确 地 描述 了 ,但 
是 q(z) 的 方差 由 p(z) 的 最 小 方差 的 方向 所 确定 ， 沿 着 垂直 方向 的 方差 被 强烈 地 低估 了 。 这 是 一 
个 一 般 的 结果 ， 即 分 解 变 分 近似 对 后 验 概率 分 布 的 近似 倾向 于 过 于 紧凑 。 

作为 比较 ,假设 我 们 最 小 化 相反 的 Kullback-Leibler 散 度 KL(p || 9)。 正 如 我 们 将 看 到 的 那样 ， 
这 种 形式 的 KL 散 度 被 用 于 另 一 种 近似 推 汤 的 框架 中 ， 这 种 框架 被 称 为 期 望 传播 (expectation 
propagation) 。 于 是 ， 我 们 考虑 一 般 的 最 小 化 KL 9) 的 问题 ， 其 中 gq(2) 是 形式 为 《10.5) 的 
分 解 近似 。 这 样 ，KL 散 度 可 以 写成 



























































AI 
KL(p | gq) = - /Ga 也 ln qi(2i)| d2Z 十 常数 (10.10) 
2 一 | 
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图 10.2: 两 种 形式 的 KL 散 度 的 对 比 。 绿 色 和 轮廓 线 对 应 于 两 个 变量 z1 和 2z2 上 的 相关 高 斯 分 布 p(z) 的 1、2、3 
个 标准 差 的 位 置 ， 红 色 和 轮廓 线 表 示 相 同 变量 上 的 近似 分 布 a(z) 的 同样 位 置 。 近 似 分 布 q(z) 由 两 个 独立 的 
一 元 高 斯 分 布 的 乘积 给 出 ，(Q@) 图 中 ， 参 数 通过 最 小 化 Kullback-Leibler 散 度 KL(g || bp) 的 方式 获得 ，(b) 图 
中 ， 参 数 通 过 最 小 化 相反 的 Kullback-Leibler 散 度 KL(p || q) 的 方式 获得 。 



































图 10.3: 两 种 形式 的 Kullback-Leibler 散 度 的 男 一 个 对 比 。(@) 蓝 色 轮 廓 线 展示 了 由 两 个 高 斯 分 布 混合 而 成 的 
双 峰 概率 分 布 p(Z)， 红 色 轮 廊 线 对 应 于 一 个 高 斯 分 布 4(2Z)， 它 最 小 化 了 Kullback-Leibler 散 度 KL(p || gq)， 
在 这 种 意义 上 最 好 地 近似 了 p(2Z)。(b) 与 @) 相 同 ， 但 是 此 时 红色 轮廓 线 对 应 的 高 斯 分 布 g(Z) 是 通过 使 用 数 
值 方法 最 小 化 Kullback-Leibler 散 度 KL(g || p) 的 方式 得 到 的 。(9 与 (相同 ， 但 是 给 出 了 Kullback-Leibler 散 
度 的 另 一 个 局 部 最 小 值 。 


其 中 ， 常 数 项 就 是 p(2Z) 的 炉 ， 因 此 不 依赖 于 q(2Z)。 我 们 现在 可 以 关于 每 个 因子 qj;(2;) 进 行 最 优 
化 。 使 用 拉 格 朗 日 乘 数 法 ， 很 容易 得 到 结果 


二 (27] 圭 /x21 d2; = p(2;) (10.17) 
i 
在 这 种 情况 下 ， 我 们 看 到 gj(2;) 的 最 优 解 等 于 对 应 的 边缘 概率 分 布 p(Z)。 注 意 ， 这 是 一 个 解析 
解 ， 不 需要 迭代 。 

为 了 将 这 个 结果 应 用 到 向 量 z 上 的 高 斯 分 布 z(z) 这 个 例子 上 ， 我 们 可 以 使 用 公式 〈2.98) ， 
它 给 出 了 图 10.2(b) 的 结果 。 我 们 再 一 次 看 到 ， 对 均值 的 近似 是 正确 的 ,但 是 它 把 相当 多 的 概率 
质量 放 到 了 实际 上 具有 很 低 的 概率 的 变量 空间 区 域 中 。 

这 两 个 结果 的 区 别 可 以 用 下 面 的 方式 理解 。 我 们 注意 到 ，2 空 间 中 p(Z) 接 近 等 于 零 的 区 域 对 
于 Kullback-Leibler 散 度 





ralp=- /aan {BRD dz (10189) 
有 一 个 大 的 正 数 的 贡献 ， 除 非 4(2Z) 也 接近 等 于 零 。 因 此 最 小 化 这 种 形式 的 KL 散 度 会 使 得 概率 分 
布 q(Z) 避 开 p(2Z) 很 小 的 区 域 。 相 反 地 ， 使 得 Kullback-Leibler 散 度 KL(p | gq) 的 散 度 取得 最 小 值 的 
概率 分 布 gq(2Z) 在 p(2Z) 非 零 的 区 域 中 也 是 非 零 的 。 

如 果 我 们 考虑 用 一 个 单 峰 分 布 近似 多 峰 分 布 的 问题 我 们 会 更 深刻 地 认识 两 个 KL 散 度 的 不 
同行 为 ， 如 图 10.3 所 示 。 在 实际 应 用 中 ， 真 实 的 后 验 概率 分 布 经 常 是 多 峰 的 ， 大 部 分 后 验 概率 质 
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量 集中 在 参数 空间 中 的 某 几 个 相对 较 小 的 区 域 中 。 这 些 多 个 峰值 可 能 是 由 于 潜在 空间 的 不 可 区 
分 性 所 造成 的 ， 也 可 能 是 由 于 对 参数 的 复杂 的 非 线性 依赖 关系 造成 的 。 我 们 在 第 9 章 中 讨论 高 斯 
混合 模型 的 时 候 遇 到 过 这 两 种 类 型 的 多 峰 性 质 ， 那 里 ， 这 些 峰 值 以 似 然 函数 的 多 个 极 大 值 的 形 
式 显 现 出 来 。 基 于 最 小 化 KL(g || p) 的 变 分 方法 倾向 于 找到 这 些 峰 值 中 的 一 个 。 相 反 ， 如 果 我 们 
最 小 化 KL(p gq)， 那 么 得 到 的 近似 会 在 所 有 的 均值 上 取 平 均 。 在 混合 模型 问题 中 ， 这 种 方法 会 
给 出 较 差 的 预测 分 布 〈 因 为 两 个 较 好 的 参数 值 的 平均 值 通 常 不 是 一 个 较 好 的 参数 值 ) 。 可 以 使 
用 KL(p | gq) 定 义 一 个 有 用 的 推断 步骤 ,但 是 这 需要 一 种 与 这 里 讨论 的 内 容 相当 不 同 的 方法 。 当 
我 们 讨论 期 望 传播 的 时 候 ， 我 们 会 仔细 讨论 这 一 点 。 

两 种 形式 的 Kullback-Leibler 散 度 都 是 散 度 的 alpha 家 族 (alpha family) 的 成 员 (Ali and Silvey, 
1966; Amari, 1985; Minka, 2005) ， 定 义 为 


4 Bn Bh/ 1—a 
Dap lg) = 7 ( f p(n) a ) (10.19) 


其 中 -co < a < %w 是 一 个 连续 参数 。Kullback-Leibler 散 度 KL(p 9) 对 应 于 极限 a 一 1， 

而 KL(g | Pp) 对 应 于 极限 a 一 1。 对 于 所 有 a 的 值 ， 我 们 有 Da(p 上 gq) 二 0， 当 且 仪 
当 p(x) = g(x) 时 等 号 成 立 。 假 设 p(z) 是 一 个 固定 的 分 布 ， 我 们 关于 某 个 概率 分 布 q9(z) 的 集合 最 
小 化 Da(p eq)。 那 么 对 于 alpha < 一 1 的 情况 ， 散 度 是 零 强 制 的 (zero forcing) ， 即 ， 对 于 使 
得 p(xz) = 0 成 立 的 任意 z 值 ， 都 有 d(z) = 0， 通 常 q(x) 会 低估 p(x) 的 支持 ， 因 此 倾向 于 寻找 具有 
最 大 质量 的 峰值 。 相 反 ， 对 于 a > 1 的 情况 ， 散 度 是 零 避免 的 〈zero avoiding) ， 即 ， 对 于 使 
得 p(x) > 0 成 立 的 任意 x 值 ， 都 有 q(x) > 0， 通 常 d(z) 会 进行 拉 伸 来 覆盖 到 所 有 的 P(z) 值 ， 从 而 高 
0 0 


Da(pl 9= /ee ar (020) 
Hellinger 距 离 的 平方 根 是 一 个 合法 的 距离 度量 ， 





10.1.3 例子 : 一 元 高 斯 分 布 

我 们 现在 使 用 一 元 变量 z 上 的 高 斯 分 布 来 说 明 分 解 变 分 近似 (MacKay, 2003) 。 我 们 的 目标 
是 在 给 定 z 的 观测 值 的 数据 集 = {z+ ,zxN} 的 情况 下 ， 推 断 均 值 4 和 精度 7 的 后 验 概 率 分 布 。 
其 中 ， 我 们 假设 数据 是 独立 地 从 高 斯 分 布 中 抽取 的 。 似 然 函数 为 


N N 
p(D | 4,7) = (去 ) ”exp |- (zn — | (10.21) 
物 尘 1 
我 们 现在 引入 4 和 7 的 共 思 先 验 分 布 ， 形 式 为 
pl(1|7)=N(n | po, (N07) !) (10.22) 
p(T) = Gam(7 | a0, b0) (10.23) 


其 中 Gam(7 | ao,b0o) 是 公式 (2.146) 定义 的 Gamma 分 布 。 这 些 分 布 共 同 给 出 了 一 个 高 
斯 -Gamma 共 斩 先 验 分 布 。 

对 于 这 个 简单 的 问题 ， 后 验 概率 可 以 求 出 精确 解 ， 并 且 形 式 还 是 高 斯 -Gamma 分 布 。 然 而 ， 
为 了 讲解 的 目的 ， 我 们 会 考虑 对 后 验 概率 分 布 的 一 个 分 解 变 分 近似 ， 形 式 为 


q(1,7) = qn(H)qr(7T) (10.24) 


注意 ， 真 实 的 后 验 概率 分 布 不 可 以 按照 这 种 形式 进行 分 解 。 最 优 的 因子 ov 和 4r(7) 可 以 从 一 般 
的 结果 (10.9) 中 得 到 ， 如 下 所 述 。 对 于 gn(K)， 我 们 有 


In gy,(p) = Ellnp(D | ,7) + lnp(n | 7)] + 常数 


N 
人 {we 一 Hp0)2 + >》 (zn — 0 十 常数 
n=1 

















(10.25) 














2 


321 
wwaibbt.com DODDDDODOD 


对 于 4/ 配 平方 ,我 们 看 到 gy (4) 是 一 个 高 斯 分 布 N(p | pn, 和 NW )， 其 中 ,均值 和 方差 为 
























































和 OHO 十 Nz 
人 10.26 
LN TN ( ) 
AN = (N+ N)EI7] (10.27) 
注意 ， 对 于 入 一 0， 这 给 出 了 最 大 似 然 的 结果 ， 其 中 jv = ， 精 度 为 无 穷 大 。 
类 似 地 ， 因 子 qr(7) 的 最 优 解 为 
Ing7(7)= Ellinp(D | 4,7)+Inp(p | 7) +Inp(7) + 常数 
N+l 
车 —1)1 一 boT 十 1 
WW (10.28) 
> N 
-2B er 一 /> 二 0(p 一 10)*| 十 常数 
n=1 
因此 dr(7) 是 一 个 Gamma 分 布 Gam(r | an,0N)， 参 数 为 
aN 一 Qo 十 (10.29) 
N 
bn 一 bo 十 $ EB , De 一 2 十 和 o(1 一 mo) (10.30) 
n=1 


与 之 前 一 样 ， 当 NN 一 co 时 ， 它 的 行为 与 预期 相符 。 

应 该 强调 的 是 ， 我 们 不 假设 最 优 概率 分 布 gu(y) 和 gq-(7) 的 具体 的 函数 形式 。 它 们 的 函数 形式 
从 似 然 函数 和 对 应 的 共 斩 先 验 分 布 中 自然 地 得 到 。 

因此 ， 我 们 得 到 了 最 优 概率 分 布 9u(4) 和 gr(7) 的 表达 式 ， 每 个 表达 式 依赖 于 关于 其 他 概率 分 
布 计算 得 到 的 矩 。 因 此 ， 一 种 寻找 解 的 方法 是 对 例如 严 I7] 进 行 一 个 初始 的 猜测 ， 然 后 使 用 这 个 
猜测 来 重新 计算 概率 分 布 gy(1)。 给 定 这 个 修正 的 概率 分 布 之 后 ， 我 们 接 下 来 可 以 计算 所 需 的 
甜 EE[W]J 和 E[j23]， 并 且 使 用 这 些 矩 来 重新 计算 概率 分 布 q-(7)， 以 此 类 推 。 由 于 这 个 例子 中 ， 隐 合 
变量 空间 是 二 维 的 ， 因 此 我 们 可 以 用 图 形 来 说 明 后 验 概 率 分 布 的 变 分 近似 过 程 。 我 们 画 出 了 真 
实 后 验 概率 的 轮廓 线 和 分 解 近 似 的 轮廓 线 ， 如 图 10.4 所 示 。 

通常 ， 我 们 需要 使 用 一 种 迭代 的 方法 来 得 到 最 优 分 解 后 验 概率 分 布 的 解 。 然 而 ， 对 于 我 们 这 
里 讨论 的 非常 简单 的 例子 来 说 ， 我 们 可 以 通过 求解 最 优 因子 qi( 和 ar(7) 的 方程 ， 得 到 一 个 显 
式 的 解 。 在 做 这 件 事 之 前 ， 我 们 可 以 通过 考虑 无 信息 先 验 来 简化 表达 式 。 无 信息 先 验 分 布 
中 ，Ho = ao = b = Xo =0。 虽 然 这 些 参数 设置 对 应 于 一 个 反常 先 验 ， 但 是 我 们 看 到 后 验 概率 
分 布 仍然 具有 良好 的 定义 。 使 用 Gamma 分 布 的 均值 的 标准 结果 E[7] = 从 ， 以 及 公式 (10.29) 
和 公式 (10.30) ， 我 们 有 































































































一 下 2 pe 一 )? - -一 (R27) +El ”]) (10.31) 
| 六 + NT+i 人 





之 后 ， 使 用 公式 (10.26) 和 公式 〈10.27) ， 我 们 得 到 了 qu(J) 的 一 阶 矩 和 二 阶 矩 ， 形 式 为 




































































一 元 了 一 型 十 序 了 (10.32) 
现在 ,我们 可 以 将 这 些 矩 代入 公式 (10.31) ， 然 后 解 出 E[7]， 可 得 
1 We 
MD A _ 元 2 
a NR 7) (10.33) 


对 于 高 斯 分 布 的 贝 叶 斯 推断 的 可 理解 的 介绍 ， 包 括 与 最 大 似 然 方法 的 相 比 的 优势 的 讨论 ， 可 以 
参考 Minka (1998) 。 
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图 10.4: 一 元 高 斯 分 布 的 均值 /和 精度 7 的 变 分 推断 的 例子 。 真 实 后 验 概率 分 布 P(U, 7 | D) 用 绿色 曲线 表 
示 。(®) 初 始 的 分 解 近 似 qy(1)qr(7)， 用 蓝 色 曲线 表示 。(b) 重 新 估计 了 因子 qy(1) 之 后 的 结果 。(O9 重 新 估计 
了 因子 or(r) 之 后 的 结果 。(d) 最 优 分 解 近似 的 轮廓 线 ， 其 中 迭代 方法 收敛 ， 用 红色 表示 。 
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10.1.4 ”模型 比较 


除了 在 隐 含 变量 Z 上 进行 推断 之 外 ， 我 们 可 能 还 希望 对 比 一 组 候选 模型 。 索 引 为 m 的 模型 的 
先 验 概率 分 布 为 p(m)。 这 样 ， 我 们 的 目标 是 近似 后 验 概率 分 布 p(m | 关 )， 其 中 兰 是 观测 数据 。 
这 比 我 们 目前 为 止 考 虑 的 情况 稍微 复杂 一 些 ， 因 为 不 同 的 模型 可 能 具有 不 同 的 结构 ， 并 且 隐 含 
变量 Z 的 维度 实际 上 可 能 不 同 。 因 此 我 们 不 能 简单 地 考虑 考虑 分 解 近似 49(Z)q(m)， 而 是 必须 意 
识 到 2 的 后 验 概率 分 布 必 须 以 m 为 条 件 ， 所 以 我 们 必须 考虑 4(2Z,m) = q(2Z | m)q(m)。 我 们 已 经 
可 以 验证 下 面 的 基于 变 分 概率 分 布 的 分 解 方式 


n 一 和 一 m)g(m) ln PZ,m| X) 
Inp(X)=£ | )g(m)! [2 (10.34) 


其 中 L 是 Inp( 关 ) 的 下 界 ， 形 式 为 
-> ln | 10.35 
Ds ma { a 
这 里 ,我 们 假定 2Z 是 离散 变量 , 但 是 同样 的 分 析 也 适用 于 连续 潜在 变量 ， 只 要 我 们 把 求 和 替换 
为 积分 即 可 。 我 们 可 以 使 用 拉 格 朗 日 乘 数 法 关于 概率 分 布 9(m) 最 大 化 Cc， 结 果 为 
q(m) x p(m) exp{ Lm} (10.30) 


其 中 


CC 时 人 

Dz lm qtZ Im) 

然而 ， 如 果 我 们 关于 (2 | m) 最 大 化 C， 那 么 我 们 发 现 对 于 不 同 的 m 值 ， 解 是 相互 偶合 的 ， 这 与 
我 们 预期 相符 ， 因 为 这 些 概率 分 布 是 以 m 为 条 件 的 。 我 们 接 下 来 首先 通过 最 优化 《10.35) ,或 
者 等 价 地 ， 景 优化 Cw ， 来 独立 地 最 优化 每 个 q( 2 | m)， 然 后 使 用 公式 (10.36) 来 确定 4(m)。 在 
对 求 得 的 g(m) 信 进行 归 一 化 之 后 ， 它 的 值 可 以 用 于 模型 选择 或 者 模型 平均 。 





10.2 ”例子 : 高 斯 的 变 分 混合 


我 们 现在 回 到 我 们 对 于 高 斯 混合 模型 的 讨论 ， 并 且 使 用 前 一 节 讨 论 的 变 分 推断 的 方法 。 这 会 
很 好 地 说 明 变 分 方法 的 应 用 ， 也 会 展示 出 贝 叶 斯 方法 是 如 何 优雅 地 解决 最 大 似 然 方法 中 的 许多 
困难 之 处 的 〈Attias, 1999b) 。 我 们 建议 读者 仔细 研究 这 个 例子 ， 因 为 这 个 例子 给 出 了 变 分 方法 
在 实际 应 用 中 的 许多 重要 的 思想 。 许 多 贝 叶 斯 模型 ， 对 应 于 复杂 得 多 的 概率 分 布 ， 可 以 通过 对 
本 节 中 的 分 析 进 行 简单 的 扩展 进行 求解 。 

我 们 的 起 始点 是 高 斯 混合 模型 的 似 然 函数 。 高 斯 混合 模型 如 图 9.6 给 出 的 图 模型 所 示 。 对 于 
每 个 观测 xn， 我 们 有 一 个 对 应 的 潜在 变量 zn,， 它 是 一 个 “1-of-K* 的 二 值 向 量 ， 元 素 为 np， 其 
中 二 1,.…., 玉 。 与 之 前 一 样 ， 我 们 将 观测 数据 集 记 作 头 = {x1,……. ,ZN}， 类 似 地 ， 我 们 将 潜在 
变量 记 作 2 = {z1,.…,zN}。 给 定 混合 系数 ~", 根据 公式 (9.10) ,我 们 可 以 写 出 2 的 条 件 概率 
分 布 ， 形 式 为 


NK 
ps2 Pads | | || (10.37) 
类 似 地 ， 给 定 潜在 变量 和 分 量 参 数 ， 根 据 公 式 (9.11) ,我们 可 以 写 出 观测 数据 向 量 的 条 件 概率 
分 布 ， 形 式 为 


NK 
p(X|Z,p,A)= [Nz | pr AR) (10.38) 
n=1 k=1 
其 中 = {jx} 且 A = {Ax}。 注 意 ， 我们 计算 时 使 用 的 时 精度 矩阵 而 不 是 协 方差 矩阵 ， 因 为 这 
在 一 定 程度 上 简化 了 数学 计算 的 复杂 度 。 
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图 10.5: 表示 高 斯 模型 的 贝 叶 斯 混合 的 有 向 图 ， 其 中 ， 方 框 表 示 一 组 N 个 独立 同 分 布 的 观测 。 这 里 / 表 
示 {J4}， 人 表示 {Axk}。 


接 下 来 ， 我们 引入 参数 ,A 和 mw 上 的 先 验 概率 分 布 。 如 果 我 们 使 用 共 圈 先 验 分 布 ， 那 么 分 析 
过 程 会 得 到 极 大 的 简化 。 于 是 ， 我 们 选择 混合 系数 "上 的 狄 利克 雷 分 布 。 


Kk 
p(r) = Dir(r | ao) = Cl(ao) [Lr (10.39) 
k=1 





其 中 ， 根 据 对 称 性 ， 我 们 为 每 个 分 量 选 择 了 同样 的 参数 ao，C(ao) 是 狄 利克 雷 分 布 的 归 一 化 常 
数 ， 由 公式 〈B.23) 定义 。 正 如 我 们 已 经 看 到 的 那样 ， 参 数 ao 可 以 看 成 与 混合 分 布 的 每 个 分 量 
关联 的 观测 的 有 效 先 验 数量 。 如 果 ao 的 值 很 小 ,那么 后 验 概率 分 布 会 主要 被 数据 集 影响 ， 而 受 
到 先 验 概率 的 影响 很 小 。 

类 似 地 ， 我 们 引入 一 个 独立 的 高 斯 -Wishart 先 验 分 布 ， 控 制 每 个 高 斯 分 布 的 均值 和 精度 ， 形 
式 为 


LL | A)p(A) 
(10.40) 


p(4,A)=p( 
K 
三 I[N Lx | mo, (BoAx) WA | Wo, vo) 

kL 


这 是 由 于 当 均 值 和 精度 均 未 知 的 时 候 ， 它 表示 共 轿 先 验 分 布 。 通 常 根据 对 称 性 ， 我 们 选 
择 mo 一 0。 

生成 的 模型 可 以 表示 为 图 10.5 所 示 的 有 向 图 。 注 意 ， 从 A 到 /之 间 存 在 一 个 链接 ， 这 是 由 于 
公式 (10.40) 中 的 jy 上 的 概率 分 布 的 方差 为 A 的 函数 。 

这 个 例子 很 好 地 说 明了 潜在 变量 和 参数 之 间 的 区 别 。 像 zn 这 样 出 现在 方 框 内 部 的 变量 被 看 
做 隐 含 变量 ， 因 为 这 种 变量 的 数量 随 着 数据 集 规模 的 增 大 而 增 大 。 相 反 ， 像 上 这 样 出 现在 方 杠 
外 的 变量 的 数量 与 数据 集 的 规模 无 关 ， 因 此 被 当做 参数 。 然 而 ， 从 图 模型 的 观点 来 看 ， 它 们 之 
间 没 有 本 质 的 区 别 。 





10.2.1 ” 恋 分 分 布 


为 了 形式 化 地 描述 这 个 模型 的 变 分 方法 ， 我 们 接 下 来 写 出 所 有 随机 变量 的 联合 概率 分 布 ， 形 
式 为 
p(X， Z,7, Hh, A) 一 p(X | 2 1 A)P(G | T)P(T)D(N | A)p(A) (10.41) 
其 中 ， 各 种 因子 已 经 在 之 前 定义 过 。 读 者 现在 应 该 验证 一 下 这 种 分 解 方式 确实 对 应 于 图 10.5 给 出 
的 概率 图 模型 。 注 意 ， 只 有 变量 和 = {zx1,.…. ,zxN} 是 观测 变量 。 
我 们 现在 考虑 一 个 变 分 分 布 ， 它 可 以 在 潜在 变量 与 参数 之 间 进行 分 解 ， 即 


q(Z,7, 4,A) = qa(2Z)gq(7, wk, A) (10.42) 
需要 注意 的 是 ， 为 了 让 我 们 的 贝 叶 斯 混合 模型 能 够 有 一 个 合理 的 可 以 计算 的 解 ， 这 是 我 们 需要 
做 出 的 唯一 的 假设 。 特 别 地 ， 因 子 q(Z) 和 gq(7, 4, A) 的 函数 形式 会 在 变 分 分 布 的 最 优化 过 程 中 自 


动 确 定 。 注 意 ， 我 们 省 略 了 % 分 布 的 下 标 ， 就 像 我 们 在 公式 (10.41) 中 做 的 那样 。 我 们 依赖 参数 
来 区 分 不 同 的 分 布 。 
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通过 使 用 一 般 的 结果 〈10.9) ， 这 些 因 子 的 对 应 的 顺序 更 新 方程 可 以 很 容易 地 推导 出 来 。 让 
我 们 考虑 因子 a(2) 的 更 新 方程 的 推导 。 最 优 因子 的 对 数 为 


Ing*(Z) = 下 rAlnp(X GTA)] 十 常数 (10.43) 


我 们 现在 使 用 公式 〈10.41) 给 出 的 分 解 方 式 。 注 意 ， 我 们 只 对 等 式 右 侧 与 变量 Z 相 关 的 通 数 关 
系 感 兴趣 。 因 此 ， 任 何 与 变量 2 无关 的 项 都 可 以 被 整合 到 可 加 的 归 一 化 系数 中 ， 从 而 有 


Ing*(2Z)= Erlinp(Z | 7)]+E,,Alin p(X | 2, NA)] 十 党 数 (10.44) 


替换 右 侧 的 两 个 条 件 分 布 ， 然 后 再 次 把 与 QZ 无 关 的 项 整合 到 可 加 性 常数 中 ， 我 们 有 













































































N 开 
Ing*(2) = >》 》 zklnpnk 十 常数 (10.45) 
六 k=. 
其 中 我 们 定义 了 
1 D 
ln pnx = Elln Al| 十 3 Elln |Axl|] 一 ln(27) 
g (10.40) 
了 Bj, Ar (Tn = Hx) Ap (Pn 一 人] 
其 中 忆 是 数据 变量 z 的 维度 。 公 式 (10.45) 两 侧 取 指 数 ， 我 们 有 
NK 
a(2)« [I[ Te (10.47) 


n=1 k=1 


我 们 要 求 这 个 概率 分 布 是 归 一 化 的 ， 并 且 我 们 注意 到 对 于 每 个 n 值 ，znx 都 是 二 值 的 ， 在 所 有 
的 k 值 上 的 加 和 等 于 ， 因 此 我 们 有 





NK 
(2 (10.48) 
(a 
其 中 
rag = A (10.49) 
2j=1 Pnj 


我 们 看 到 ， 因 子 a(2Z) 的 最 优 解 的 函数 形式 与 先 验 概 率 分 布 p(Z | 7) 的 函数 形式 相同 。 注 意 ， 由 
于 pw 是 一 个 实数 值 的 指数 ， 因 此 rm 是 非 负 的 ， 且 加 和 等 于 1， 满 足 要 求 。 
对 于 离散 概率 分 布 " (QZ)， 我 们 有 标准 的 结果 


E [zng] = Thnk (10.50) 
从 中 我 们 看 到 rwx 扮 演 着 "责任 "的 角色 。 注 意 ，q*(2) 的 最 优 解 依赖 于 关于 其 他 变量 计算 得 到 的 


矩 ， 因 此 与 之 前 一 样 ， 变 分 更 新 方程 是 偶合 的 ， 必 须 用 迭代 的 方式 求解 。 
现在 ， 我们 会 发 现 定义 观测 数据 关于 “责任 "的 下 面 三 个 统计 量 会 比较 方便 ， 即 














Ni = nh (10.51) 


1 
Kk 一 一 六 2 (10.52) 


N 
Sk = 7 > rnk(Zn — Bp)(Ln — EE) (10.53) 
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注意 ， 这 些 类 似 于 高 斯 混合 模型 的 最 大 似 然 EM 算 法 中 计算 的 量 。 
现在 让 我 们 考虑 变 分 后 验 概率 分 布 中 的 因子 g(r, yp, A)。 与 之 前 一 样 ， 使 用 公式 (10.9) 给 出 
的 一 般 的 结果 ， 我 们 有 


K 


























Ing’(x,p,A)= Inp(r)+ > Inp(p, Ax) + Ezlinp(Z |] 
k= 
a (10.54) 
+》、》 Ew]InN (zn | prs AFD 十 常数 


k=1 n=1 


我 们 观察 到 ， 这 个 表达 式 的 右 侧 分 解 成 了 若干 项 的 和 ， 一 些 项 只 与 相关 ， 一 些 项 只 与 上 和 A 相 
关 ， 这 表明 变 分 后 验 概率 q(7,y, 人 A) 可 以 分 解 为 9(7)gq(4,A)。 此 外 ， 与 4 和 A 相关 的 项 本 身 
由 个 与 4 和 A 相关 的 项 有 关 ， 因 此 可 以 进一步 分 解 ， 即 


K 
a(m, pA)= a(7) | op An (10.55) 
k= 
分 离 出 公式 〈10.54) 右 侧 的 与 相关 的 项 ， 我 们 有 
K K NN 
Ing*(7) = (a0—1)》 lng + 》 >》roplnre 十 常数 (10.50) 
k=1 k=1 n=1 
其 中 我 们 使 用 了 公式 (10.50) 。 两 侧 取 指数 ， 我 们 将 q*(7) 看 成 犹 利克 雷 分 布 
¢ (7) = Dir(r | an (10.57) 


其 中 a 的 元 素 为 ax， 形 式 为 
Qk = Qo 二 + NE (10.58) 


最 后 ， 变 分 后 验 概率 分 布 g* (14, Ap) 无 法 分 解 成 边缘 概率 分 布 的 乘积 ， 但 是 我 们 总 可 以 使 
用 概率 的 乘积 规则 ， 将 其 写成 g* (jx,Ax) = 和 (| Ab (Ab)。 两 个 因子 可 以 通过 观察 公式 
(10.54) 得 到 ， 并 且 可 以 读 出 几 和 Ax。 与 预期 相符 ， 结 果 是 一 个 高 斯 -Wishart 分 布 ， 形 式 为 





(pi Mk) =N(px | mr, (BA WOAR | Wah, vk) (10.59) 
其 中 我 们 已 经 定义 了 
Bx = Pot Ne (10.60) 
1 
Mk = i 十 Nk) (10.61) 
Wi-!= WwW-! + NS + Po (Zk mo) (zx 一 7a0) (10.62) 
Bo t+ NE 
Uk = vt Ny (10.63) 


更 新 方程 类 似 于 混合 高 斯 模型 的 最 大 似 然 解 的 EM 算法 的 M 步 又 的 方程 。 我 们 看 到 ， 为 了 更 新 模 
型 参数 上 的 变 分 后 验 概率 分 布 ， 必 须 进行 的 计算 涉及 到 的 在 数据 集 上 的 求 和 操作 与 最 大 似 然 方 
法 中 的 求 和 操作 相同 。 

为 了 进行 这 个 变 分 M 步 又 ， 我 们 需要 得 到 表示 责任 的 期 望 也 [zk] = rnr。 这 些 可 以 通过 对 公 
式 (10.46) 给 出 的 pm 进行 归 一 化 的 方式 得 到 。 我 们 看 到 ， 这 个 表达 式 涉 及 到 关于 变 分 分 布 的 参 
数 求 期 望 ， 这 些 期 望 很 容易 求 出 ， 从 而 可 得 






































Bj Ak [Bn — pr) Ap(zn — Hx)| 三 了 DB 十 玖 (2 — my) Tczn 一 rp) (10.64) 
2 
In A = Elin |Axl] -Dv (4) + Dln2+In|Wal (10.65) 
= 
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图 10.6: KK = 6 个 高 斯 分 布 的 变 分 贝 叶 斯 混合 ， 应 用 于 老 忠 实 间 欣 喷 泉 数 据 集 ， 其 中 椭圆 表示 每 个 分 量 的 
概率 密度 的 一 个 标准 差 位 置 的 轮廓 线 ， 每 个 椭圆 内 部 的 红 点 对 应 于 每 个 分 量 的 混合 系数 的 均值 。 每 张 图 
中 左上 角 的 数字 表示 变 分 推 师 迭代 的 次 数 。 混 合 系数 的 期 望 在 数值 上 与 零 无 法 区 分 的 分 量 没有 画 出 。 














ln A 三 Elln Np] 一 VW (or) = yw(a) (10.60) 


其 中 我 们 引入 了 Axk 和 元 :的 定义 ，y() 是 公式 (B.25) 定义 的 Digamma 函 数 ，Q@ = Dj qk。 公式 
(10.65) 和 公式 (10.66) 是 从 Wishart 分 布 和 狄 利克 雷 分 布 的 标准 性 质 中 得 到 的 。 

如 果 我 们 将 公式 (10.64) 、 (10.65) 和 “(10.66) 代入 公式 (10.46) ， 然 后 使 用 公式 
(10.49) ,我 们 得 到 了 下 面 的 “责任 "的 结果 





Vk 
26k 2 


注意 这 个 结果 与 最 大 似 然 EM 算法 得 到 的 责任 的 对 应 结果 的 相似 性 ， 后 者 根据 公式 (9.13) 可 
以 写成 





二 
Thnk CCK NAA exp { (2 my) Wh (zn = my) (10.67) 


Tnk CC TAR exp {= 一 Lx) Ax (zn 一 pn) (10.68) 
其 中 我 们 使 用 精度 代 蔡 了 协 方差 ， 来 强调 它 与 公式 (10.67) 之 间 的 相似 性 。 

因此 变 分 后 验 概率 分 布 的 最 优化 涉及 到 在 两 个 阶段 之 间 进 行 循环 ， 这 两 个 阶段 类 似 于 最 
大 似 然 EM 算法 的 E 步 骤 和 M 步 又。 在 变 分 推断 的 与 E 步 骤 等 价 的 步骤 中 ， 我 们 使 用 当前 状态 
下 模型 参数 上 的 概率 分 布 来 计算 公式 (10.64) 、 (10.65) 和 “(10.66) 中 的 各 阶 矩 ， 从 而 计 
算 E[znx] = rm。 然后 ， 在 接 下 来 的 与 M 步 又 等 价 的 步骤 中 ， 我 们 令 这 些 责任 保持 不 变 ， 然 后 
使 用 它们 通过 公式 (10.57) 和 “10.59) 重新 计算 参数 上 的 变 分 分 布 。 在 任何 一 种 情形 下 ， 我 们 
看 到 变 分 后 验 概率 的 形式 与 联合 概率 分 布 (10.41) 中 对 应 因子 的 函数 形式 相同 。 这 是 一 个 一 般 
的 结果 ， 是 由 于 选择 了 共 斩 先 验 所 造成 的 。 

图 10.6 给 出 了 将 这 种 方法 应 用 于 老 忠 实 间 鞭 喷泉 数据 集 上 的 结果 。 使 用 的 模型 是 高 斯 混合 模 
型 ， 有 天 = 6 个 分 量 。 我 们 看 到 ， 在 收敛 之 后 ， 只 有 两 个 分 量 的 混合 系数 的 期 望 值 可 以 与 它们 
的 先 验 值 区 分 开 。 这 种 效果 可 以 根据 贝 叶 斯 模型 中 数据 拟 合 与 模型 复杂 度 之 间 的 折 中 来 定性 地 
理解 。 这 种 模型 中 的 复杂 度 惩罚 的 来 源 是 参数 被 推 离 了 它们 的 先 验 值 。 对 于 解释 数据 点 没 
有 作用 的 分 量 满 足 rw 之 0， 从 而 Ni 0。 根 据 公 式 (10.58) ， 我 们 看 到 ax < ao。 根 据 公 式 
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(10.60) 至 (10.63) ， 我 们 看 到 其 他 的 参数 回 到 了 它们 的 先 验 值 。 原 则 上 ， 这 些 分 量 会 微小 地 
适应 于 数据 点 ， 但 是 对 于 一 大 类 先 验 分 布 来 说 ， 这 种 微小 的 调整 的 效果 太 小 了 ， 以 至 于 无 法 在 
数值 上 看 出 来 。 对 于 高 斯 混合 模型 ， 后 验 概率 分 布 中 的 混合 系数 的 期 望 值 为 
a0 Nk 


[mk] = Re (10.69) 


考虑 一 个 分 量 ， 其 中 Nk = 0 有 a = ao。 如 果 先 验 概率 分 布 很 宽 ， 从 而 ao 一 0， 那 
么 Ema] 一 0， 分量 对 模型 不 起 作用 。 而 如 果 先 验 概率 与 混合 系数 密切 相关 ， 即 co 下 oo， 屠 
入 E [ny] 一 Ko 

在 图 10.6 中 ， 混 合 系数 上 的 先 验 概率 分 布 是 一 个 狄 利克 雷 分 布 ， 形 式 为 (10.39) 。 回 忆 一 
下 ， 根 据 图 25， 对 于 ao < 1， 先 验 概率 分 布 倾向 于 选择 某 些 混合 系数 趋 近 于 零 的 解 。 图 10.6 是 
使 用 ao = 10 得 到 的 结果 ， 产 生 了 两 个 混合 系数 非 零 的 分 量 。 如 果 我 们 选择 ao = 1， 那 么 我 们 
得 到 三 个 混合 系数 非 零 的 分 量 ， 对 于 a = 10， 所 有 六 个 分 量 的 混合 系数 都 不 等 于 零 。 

正如 我 们 已 经 看 到 的 那样 ， 高 斯 分 布 的 贝 叶 斯 混合 的 变 分 解 与 最 大 似 然 的 EM 算法 的 解 很 
相似 。 事 实 上 ， 如 果 我 们 考虑 N 一 oo 的 极限 情况 ， 那 么 贝 叶 斯 方法 就 收敛 于 最 大 似 然 方法 
的 EM 解 。 对 于 不 是 特别 小 的 数据 集 来 说 ， 高 斯 混合 模型 的 变 分 算法 的 主要 的 计算 代价 来 自 
于 “责任 "的 计算 ， 以 及 加 权 数 据 协 方差 矩阵 的 计算 与 求 逆 。 这 些 计算 与 最 大 似 然 EM 算 法 中 产生 
的 计算 相对 应 ， 因 此 使 用 这 种 贝 叶 斯 方法 几乎 没有 更 多 的 计算 代价 。 然 而 ， 这 种 方法 有 一 些 重 
要 的 优点 。 首 先 ， 在 最 大 似 然 方法 中 ， 当 一 个 高 斯 分 量 退化 到 一 个 具体 的 数据 点 时 ， 会 产生 
奇异 性 ， 而 这 种 奇异 性 在 贝 叶 斯 方法 中 不 存在 。 实 际 上 ， 如 果 我 们 简单 地 引 d 入 一 个 先 验 分 布 ， 
然后 使 用 MAP 估 计 而 不 是 最 大 似 然 估计 ， 这 种 奇异 性 就 会 被 消除 。 此 外 ， 当 我 们 在 混合 分 布 中 
将 混合 分 量 的 数量 KK 选 得 较 大 时 ， 不 会 出 现 过 拟 合 问题 ， 正 如 我 们 在 图 10.6 中 看 到 的 那样 。 最 
后 ， 变 分 方法 使 得 我 们 可 以 在 确定 混合 分 布 中 分 量 的 最 优 数 量 时 不 必 借 助 于 交叉 验证 的 技术 。 









































10.2.2” 恋 分 下 界 

我 们 也 可 以 很 容易 地 计算 这 个 模型 的 下 界 (10.3) 。 在 实际 应 用 中 ， 能 够 在 重新 估计 期 间 监 
视 模 型 的 下 界 是 很 有 用 的 ， 这 可 以 用 来 检测 是 否 收敛 。 它 也 可 以 为 解 的 数学 表达 式 和 它们 的 软 
件 执行 提供 一 个 有 价值 的 检查 ， 因 为 在 迷 代 重新 估计 的 每 个 步骤 中 ， 这 个 下 界 的 值 应 该 不 会 减 
小 。 我 们 可 以 进一步 地 使 用 变 分 下 界 检查 更 新 方程 的 数学 推导 和 它们 的 软件 执行 的 正确 性 ， 方 
法 是 使 用 有 限 差 来 检查 每 次 更 新 确实 给 出 了 下 界 的 一 个 (具有 限制 条 件 的 ) 极 大 值 (Svensén 
and Bishop, 2004) 。 

对 于 高 斯 分 布 的 变 分 混合 ， 下 界 (10.3) 为 


/faz dn | dr dp dA 
A) 


= Ellnp(X,2,7,n,A)] — Ellng(Z,7,w, 
= Ellnp(X | 2,4,A)] + Elnp(Z | X)] +EI 
— Ellng(2Z)] 一 下 [no(r)] ~ Elln gq(p, A)] 


其 中 ， 为 了 保持 记号 简洁 ， 我 们 省 略 了 4 分 布 上 的 * 上 标 ， 以 及 期 望 算 符 的 下 标 ， 因 为 每 个 期 户 
是 关于 它 的 所 有 参数 进行 计算 的 。 下 界 的 各 项 很 容易 计算 ， 结 果 为 
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(10.70) 
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np(7)] + Ellnp(p, A) 


















































Kk 
1 ~ 本 
sap(X | Zp A) = 3 Ne{ InAy — DBE! 一 区 TS 
k=1 














(10.71) 
eS Vy (TE mmx) We (zr = mmx) 一 Din(27)} 
NK 
Blinp(Z | 7)] = >》 Yrng ln iy (10.72) 
n=1 k=1 
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KkK 
elin p(n)] = InC(a0) + (a0—1) >》 ni (10.73) 
k=1 

















KkK 
> D 
Ellnp(p, A)] = ;> {DIn 3 HH ln A 卫 


一 Bovo (mn = ma0)7 Wa (mx 一 mo)} 十 K ln B(Wo, vo) (10.74) 


ry pt 1 
由 从 一 1 
半 5 2 Wi) 









































NK 
pling( 2)] = DY rok Ing (10.75) 
n=1 k=1 
K 
plln g(r)] = > (ox — DInfir+InC(a) (10.70) 
k= 
K 
ln gq(p, A)] = 2 3 InAk + 2 In 3 2 molAa| (10.77) 


其 中 D 是 x 的 维度 ，HH[q(Aj)] 是 公式 〈B.82) 给 出 的 Wishart 分 布 的 焙 ， 系 数 C(a) 和 B(W,v) 分 别 
由 公式 (B.23) 和 公式 (B.79) 定义 。 注 意 ， 涉 及 到 g 分 布 的 对 数 的 期 望 的 项 仅仅 表示 这 些 分 布 
的 灼 负 值 。 当 这 些 表 达 式 进行 加 和 给 出 下 界 的 表达 式 时 ， 某 些 项 可 以 组 合 到 一 起 ， 使 表达 式 
得 到 简化 。 然 而 ， 我 们 将 各 个 表达 式 分 开 写 ， 为 了 让 理解 更 容易 。 

最 后 ， 值 得 注意 的 一 点 是 ， 下 界 提供 了 另 一 种 推导 变 分 重 估计 方程 的 方法 〈 变 分 重 佑 计 方程 
在 10.2.1 节 已 经 得 到 ) 。 为 了 说 明 这 一 点 ， 我 们 使 用 下 面 的 事实 : 由 于 模型 有 共 轿 先 验 ， 因 此 变 
分 后 验 分 布 ( 即 2 的 离散 分 布 、7 的 狄 利克 雷 分 布 以 及 (1x, Ab) 的 高 斯 -Wishart 分 布 ) 的 函数 形式 
是 已 知 的。 通过 使 用 这 些 分 布 的 一 般 的 参数 形式 ， 我 们 可 以 推导 出 下 界 的 形式 ， 将 下 界 作 为 概 
率 分 布 的 参数 的 函数 。 关 于 这 些 参数 最 大 化 下 界 就 会 得 到 所 需 的 重 估计 方程 。 


10.2.3 ”预测 概率 密度 
在 高 斯 模型 的 贝 叶 斯 混合 的 应 用 中 ， 我 们 通常 对 观测 变量 的 新 值 吉 的 预测 概率 密度 感 兴 址 。 
与 这 个 观测 相关 联 的 有 一 个 潜在 变量 3?， 从 而 预测 概率 分 布 为 
pG1X) = /|// plz pl pm A X) dr dn dA (1079) 


其 中 p(7, ,人 A | 闫 ) 是 参数 的 未知 ) 真实 后 验 概率 分 布 。 使 用 公式 (10.37) 和 公式 (10.38) ， 
我 们 可 以 首先 完成 在 2 上 的 求 和 ， 得 到 


K 
n@| x) = /| re wi Mr pr A | X) dr dy dA (10.79) 
二 二 


由 于 剩 下 的 积分 是 无 法 计算 的 ， 因 此 我 们 通过 将 真实 后 验 概率 分 布 p(7, 4, A | 半 ) 用 它 的 变 分 近 
似 q(7)q(p, A) 茜 换 的 方式 来 近似 预测 概率 分 布 ， 结 果 为 


K 
po&| x) ~ {|f rv ws AF Yama At) dr dp dA (10.80) 
ke1 


其 中 我 们 使 用 了 公式 (10.55) 给 出 的 分 解 方式 ， 并 且 在 每 一 项 中 ， 我 们 已 经 隐 式 地 将 7 六 的 全 
部 {4;, Aj} 变 量 积分 出 去 。 剩 余 的 积分 现在 可 以 解析 地 计算 ， 得 到 一 个 学 生 { 分 布 的 混合 ， 即 


K 
A 1 x 
p(¥ | X= > QagSt(F | Ti 了 十 1 一 万 ) (10.81) 
ET 
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p(DIK) | Ht 


























图 10.7: 变 分 下 界 £ 与 高 斯 混合 模型 的 分 量 的 数量 KK 的 关系 图 像 ， 数 据 集 是 老 忠 实 间 欣 喷泉 的 数据 。 图 中 
展示 了 K = 2 个 分 量 时 的 不 同 的 峰值 。 对 于 每 个 天 值 ， 模 型 使 用 100 个 不 同 的 起 始点 进行 训练 ， 结 果 
用 十 符号 表示 。 图 像 中 ， 水 平方 向 被 施加 了 微小 的 扰动 ， 从 而 它们 可 以 被 区 分 开 。 注 意 ， 某 些 解 找到 了 
次 优 的 局 部 极 大 值 ， 但 是 这 个 不 经 常 发 生 。 


其 中 第 个 分 量 的 均值 为 mu， 精度 为 


(vt+1— DB 
1+ Bx 


中 忆 由 公式 (10.63) 给 出 。 当 数据 集 的 大 小 N 很 大 时 ， 预 测 分 布 (10.81) 就 变 成 了 高 斯 混 


L; = We (10.82) 


中 半 


10.2.4 确定 分 量 的 数量 


我 们 已 经 看 到 ， 变 分 下 界 可 以 用 来 确定 具有 天 个 分 量 的 混合 模型 的 后 验 概率 分 
布 。 然 而 ， 这 里 有 一 个 需要 强调 的 比较 微妙 的 地 方 。 对 于 高 斯 混合 模型 的 任意 给 定 
的 参数 设置 (除了 一 些 特 殊 的 退化 的 设置 之 外 ) ， 会 存在 一 些 其 他 的 参数 设置 ， 对 
于 这 些 参 数 设 置 ， 观 测 变 量 上 的 概率 密度 是 完全 相同 的 。 这 些 参 数值 的 差别 仅仅 
是 由 于 分 量 的 重新 标记 产生 的 。 人 例如， 考虑 两 个 高 斯 分 布 的 混合 以 及 一 个 单一 的 
观测 变量 z， 其 中 参数 值 为 ri = a,72 = 0,M1 = cM2 = 二 d,01 二 6,02 = 上 那么 对 于 参数 
值 1 = 6,72 二 a,pW1 二 d,j2 二 c,01 二 f,02 二 e， 即 两 个 分 量 被 交换 ， 此 时 根据 对 称 性 ， 会 给 出 
Re a 
设置 中 的 一 个 。 

在 最 大 似 然 方法 中 ， 这 种 宛 余 性 是 不 相关 的 ， 因 为 参数 最 优化 算法 (例如 EM 算法 ) 会 依赖 
于 参数 的 初始 值 ， 找 到 一 个 具体 的 解 ， 其 他 的 等 价 的 解 不 起 作用 。 人 然而 ， 在 贝 叶 斯 方法 中 ,我 
们 对 所 有 可 能 的 参数 进行 积分 或 求 和 。 我 们 已 经 在 图 10.3 中 看 到 了 ， 如 果真 实 的 后 验 概率 分 布 是 
多 峰 的 ， 那 么 基于 最 小 化 KL(g || p) 的 变 分 推断 会 倾向 于 在 某 一 个 峰值 的 邻 域内 近似 这 个 分 布 ， 
而 忽视 其 他 的 峰值 。 由 于 等 价 的 峰值 具有 等 价 的 预测 分 布 ， 因 此 只 要 我 们 考虑 一 个 具有 具体 的 
数量 K 个 分 量 组 成 的 模型 ， 那 么 这 种 等 价 性 就 无 需 担心 。 然 而 ， 如 果 我 们 项 比较 不 同 的 K 值 ， 
Oo Ai 

兽 加 一 项 ln Kl1。 

图 10.7 给 出 了 包含 多 峰值 因子 的 下 界 关 于 分 量 数量 的 关系 图 像 ， 数 据 集 是 老 忠 实 间 黄 喷泉 
的 数据 。 值 得 再 次 强调 的 是 ， 最 大 似 然 方法 会 使 得 似 然 函 数 的 值 随 着 KK 的 值 单 调 递 增 (假设 奇 
异 解 已 经 被 避 开 ， 并且 不 考虑 局 部 极 大 值 的 效果 ) ， 因 此 不 能 够 用 于 确定 一 个 合适 的 模型 复杂 
度 。 相 反 ， 贝 叶 斯 推断 自动 地 进行 了 模型 复杂 度 和 数据 拟 合 之 间 的 折 中 。 
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这 种 确定 的 方法 需要 对 一 组 具有 不 同 K 值 的 模型 进行 训练 和 比较 。 另 一 种 确定 一 个 合适 

的 KK 值 的 方法 是 将 混合 系数 "看 成 参数 ， 通 过 关于 7 最 大 化 下 界 的 方式 来 对 它们 的 值 进行 点 估计 

(Corduneanu and Bishop, 2001) ， 这 种 方法 没有 使 用 纯粹 的 贝 叶 斯 方法 为 它们 保留 一 个 概率 分 
布 。 这 种 方法 会 得 到 下 面 的 重 估计 方程 


1 N 
确 二 元 (10.83) 


n=1 


并 且 最 大 化 过 程 与 剩余 参数 上 的 分 布 g 的 变 分 更 新 过 程 相互 交织 在 一 起 。 对 于 解释 数据 集 的 贡献 
比较 小 的 分 量 会 让 它们 的 混合 系数 在 最 优化 的 过 程 中 趋 于 零 ， 因 此 它们 通过 自动 相关 性 确定 
(automatic relevance determination) 的 方式 从 模型 中 移 除 。 这 使 得 我 们 可 以 进行 一 轮训 练 ， 这 
一 轮训 练 开 始 时 ， 我 们 选择 一 个 相对 较 大 的 天 的 初始 值 ， 然 后 让 多 于 的 分 量 从 模型 中 被 剪 枝 出 
去 。 关 于 超 参 数 进行 最 优化 时 的 稀 臣 性 的 来 源 已 经 在 相关 向 量 机 中 详细 讨论 过 。 





10.2.5 诱导 分 解 


在 推导 高 斯 混合 模型 的 这 些 变 分 更 新 方程 时 ， 我 们 假定 了 对 变 分 后 验 概率 分 布 的 一 种 特 
定 的 分 解 方式 ， 由 公式 (10.42) 给 定 。 然 而 ， 不 同 因子 的 最 优 解 给 出 了 额外 的 分 解 。 特 别 
地 ，g* (1, A) 的 最 优 解 由 每 个 混合 分 量 k 上 的 独立 分 布 q* (jw, Ax) 的 乘积 给 定 ， 而 公式 (10.48) 
给 定 的 潜在 变量 上 的 变 分 后 验 概率 分 布 g*(Z) 可 以 分 解 为 每 个 观测 n 的 独立 概率 分 布 0*(zn)( 注 
意 它 不 能 关于 有 进行 分 解 ， 因 为 对 于 每 个 n 值 ，znx 需 要 满足 在 kX 上 的 加 和 等 于 1 的 限制 ) 。 这 些 额 
外 的 分 解 的 产生 原因 是 假定 的 分 解 方式 与 真实 分 布 的 条 件 独立 性 质 相互 作用 的 结果 ， 正 如 图 10.5 
所 示 的 有 向 图 所 描述 的 那样 。 

我 们 会 把 这 些 额 外 的 分 解 方式 成 为 诱导 分 解 (induced factorizations) ， 因 为 它们 产生 于 在 变 
分 后 验 分 布 中 假定 的 分 解 方式 与 真实 联合 概率 分 布 的 条 件 独 立 性 质 之 间 的 相互 作用 。 在 变 分 方 
法 的 数值 实现 中 ， 考 虑 这 些 附加 的 分 解 方式 很 重要 。 例 如 ， 对 于 一 组 变量 上 的 高 斯 分 布 来 说 ， 
如 果 分 布 的 最 优 形式 的 精度 矩阵 总 是 对 角 和 矩阵 (对 应 于 关于 由 那个 高 斯 分 布 独立 描述 的 变量 的 
分 解 方 式 ) ， 那 么 在 计算 过 程 中 始终 保留 一 个 完整 的 精度 矩阵 是 一 种 很 低 效 的 做 法 。 

使 用 一 种 基于 d- 划 分 的 简单 的 图 检测 方法 ， 这 种 诱导 的 分 解 方式 可 以 很 容易 地 被 检测 到 。 我 
们 将 潜在 变量 划分 为 三 个 互 斥 的 组 4, 互 ,C， 然 后 让 我 们 假定 我 们 可 以 在 变量 C 与 剩余 变量 之 间 
进行 分 解 ， 即 








q(A, B,C)= a(A,B)ga(C) (10.84) 

使 用 一 般 的 结果 “(10.9) 以 及 概率 的 乘积 规则 ， 我 们 看 到 gq( 4, B) 的 最 优 解 为 
Ing"(A, B) = Ecllinp(X, A, B,C)] + 常数 
二 Eclinp(4,B | 关 ,CC)] 二 常数 

我 们 现在 考察 这 个 解 能 否 在 4 和 B 之 间 进 行 分 解 ， 即 是 否 有 gq*(A,B) = 9*(A)q*(B)。 当 上 且 仪 


当 Inp(A,BB| 关 ,C) 二 Inp(A4 | 六,C)+Inp(B| 关 ,CC) 时 ， 这 种 情况 成 立 ， 也 就 是 说 ， 下 面 的 
条 件 独立 关系 应 该 满足 。 








(10.85) 

















ALB|X,C (10.80) 
我 们 也 可 以 使 用 d- 划 分 准则 来 检测 对 于 任意 的 A4 和 B 的 选择 ， 这 个 关系 是 否 确实 成 立 。 
为 了 说 明 这 一 点 ， 再 次 考虑 由 图 10.5 中 的 有 向 图 表示 的 高 斯 分 布 的 贝 叶 斯 混合 ， 其 中 我 们 假 


定 变 分 分 解 由 公式 (10.42) 给 出 。 我 们 立刻 就 可 以 看 到 ， 参 数 上 的 变 分 后 验 概率 分 布 一 定 可 以 
在 + 和 剩余 的 参数 /和 人 A 之 间 进行 分 解 ， 因 为 所 有 将 与 4 或 者 人 相连 接 的 路 径 一 定 通过 某 个 z, 结 


点 ， 所 有 这 些 zn 结 点 都 在 我 们 的 条 件 独立 性 检测 的 条 件 集 合 中 ， 并 且 所 有 的 zn 结 点 关于 这 种 路 
径 都 是 头 到 尾 的 。 


10.3 变 分 线性 回归 
作为 变 分 推断 的 第 二 个 例子 ， 我 们 回 到 3.3 节 的 贝 叶 斯 线性 回归 模型 中 。 在 模型 证 据 框架 
中 ,我们 通过 使 用 最 大 化 似 然 函数 的 方法 进行 点 估计 ， 从 而 近似 了 在 a 和 6 上 的 积分 。 一 个 纯粹 
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图 10.8: 表示 贝 叶 斯 线性 回归 模型 的 联合 概率 分 布 (10.90) 的 图 模型 。 


的 贝 叶 斯 方法 会 对 所 有 的 超 参 数 和 参数 进行 积分 。 虽 然 精确 的 积分 是 无 法 计算 的 ， 但 是 我 们 可 
以 使 用 变 分 方法 来 找到 一 个 可 以 处 理 的 近似 。 为 了 简化 讨论 ， 我 们 会 假设 噪声 精度 参数 8 已 知 ， 
并 且 固定 于 它 的 真实 值 ， 昌 然 这 个 框架 很 容易 扩展 来 包含 6 上 的 概率 分 布 。 对 于 线性 回归 模型 来 
说 ， 可 以 证 明 变 分 方法 等 价 于 模型 证 据 的 框架 。 尽 管 这 样 ， 这 个 例子 给 我 们 提供 了 使 用 变 分 方 
法 的 一 个 很 好 的 练习 ， 也 是 我 们 在 10.6 节 讨论 贝 叶 斯 逻辑 回归 的 变 分 方法 的 基础 。 

回忆 一 下 ，w 的 似 然 函数 和 Ww 上 的 先 验 概率 分 布 为 





N 

plt|w)= |[ Nn | ww B27)) (10.87) 
n=1 

p(w | a) =N(w |0,a 7) (10.88) 


其 中 必 = 9(zn)。 我 们 现在 引入 参数 a 上 的 先 验 概率 分 布 。 根 据 我 们 在 2.3.6 节 的 讨论 ， 我 们 知 
道 高 斯 分 布 的 精度 的 共 斩 先 验 为 Gamma 分 布 ， 因 此 我 们 选择 


p(a) = Gam(a | ao, bo) (10.89) 
其 中 Gam(: | ,:) 由 公式 (B.26) 定义 。 因 此 所 有 变量 上 的 联合 概率 分 布 为 
plt,w, a) = p(t | w)p(w | a)p(a) (10.90) 


这 可 以 表示 为 图 10.8 中 所 示 的 有 向 图 模型 。 


10.3.1” 恋 分 分 布 


我 们 的 第 一 个 目标 是 寻找 对 后 验 概率 分 布 p(w,a | 的 一 个 近似 。 为 了 完成 这 件 事 ， 我 们 使 
用 10.1 节 的 变 分 框架 ， 变 分 后 验 概率 分 布 的 分 解 表达 式 为 


q(w, a) = q(w)a(a) (10.91) 
我 们 可 以 使 用 公式 (10.9) 给 出 的 一 般 结 果 来 找到 这 个 分 布 中 的 因子 的 重 估 计 方 程 。 回 忆 一 下 ， 
对 于 每 个 因子 ， 我 们 取 所 有 变量 上 的 联合 概率 分 布 的 对 数 ， 然 后 关于 不 在 这 个 因子 中 的 变量 求 
平均 。 首 先 考虑 a 上 的 概率 分 布 。 只 保留 与 a 有 函数 依赖 关系 的 项 ,我 们 有 


lng (a) = lnp(Q) + Ewlin p(w | oa)] 十 常数 


























(10.92) 
= (a0 —1)lna— boatt na 一 Blw Tw] 十 常数 
我 们 看 到 ， 这 是 Gamma 分 布 的 对 数 ， 因 此 通过 观察 c 和 ln a 的 系数 ， 我 们 有 
d 必 (a) = Gam(a | an,bN) (10.93) 
其 中 
QN 二 Q0 十 汪 (10.94) 
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1 
bw 一 加 十 二 Elao7ao] (10.95) 


类 似 地 ， 我 们 可 以 找到 Ww 上 的 后 验 概率 分 布 的 变 分 重 估 计 方 程 。 与 之 前 一 样 ， 使 用 一 般 的 结 
果 (10.9) ， 只 保留 与 w 有 函数 依赖 关系 的 项 ， 我 们 有 









































ing'(w) = Inp(t | w) + Eallnp(w | a)] 十 常数 (10.90) 
Be 1 

= 一 2 = 3 E [ajw Tw 十 常数 (10.97) 

wT bla]T + 8 再 7 更)u + BwT BTt 十 常数 (10.98) 


由 于 这 是 一 个 二 次 型 ， 因 此 分 布 g*(w) 是 一 个 高 斯 分 布 ， 因 此 我 们 可 以 使 用 一 般 的 配 平 方 的 方 
法 ， 得 到 均值 和 协 方差 ， 结 果 为 














gq (WwW)=N(w | mnN, SN) (10.99) 

其 中 
mN = SN®Elt (10.100) 
SN = (ElalI + PETEB)-! (10.101) 


注意 这 个 结果 与 a 被 当成 固定 参数 时 得 到 的 后 验 概 率 分 布 (3.52) 的 相似 性 。 区 别 在 于 ， 这 
里 ao 被 替换 为 了 它 在 变 分 分 布下 的 期 望 忆 [al]。 实 际 上 ， 在 两 种 情形 中 ， 我 们 选择 使 用 了 同样 的 协 
方差 矩阵 SN 的 记号 。 

使 用 标准 结果 (B.27) 、 (B.38) 和 〈B.39) ,我 们 可 以 得 到 所 需 的 窍 ， 形 式 为 





























[al] = 这 (10.102) 
N 
Elww | =mNvmy + Sy (10.103) 











变 分 后 验 概率 分 布 的 计算 在 开始 时 ， 对 gq(w) 或 9(a) 中 的 一 个 概率 分 布 的 参数 进行 初始 化 ， 然 后 
交替 地 重新 更 新 这 些 因 子 ， 直 到 满足 一 个 合适 的 收敛 准则 (通常 根据 下 界 来 确定 ， 稍 后 讨 
论 ) 。 
将 变 分 方法 得 到 的 解 与 3.5 节 使 用 模型 证 据 得 到 的 解 练习 起 来 是 很 有 意义 的 。 考 
虑 ao = bo = 0 的 情形 ， 对 应 于 a 上 的 一 个 无 限 宽 的 鲜艳 概率 分 布 。 变 分 后 验 概率 g(a) 的 均值 为 
M 
QON 了 M 


[ar 三 二 三 Bor] 一 TTS ) 




















(10.104) 


与 公式 (9.63) 进行 对 比 ， 表 明 在 这 种 特别 简单 的 模型 中 ， 变 分 方法 得 到 的 解 与 使 用 EM 算法 最 
大 化 模型 证 据 函 数 的 方法 得 到 的 解 完 全 相同 ， 唯 一 的 区 别 是 a 的 点 估计 被 替换 为 了 它 的 期 望 
值 。 由 于 分 布 9(w) 只 通过 期 望 E[a] 对 g(a) 产 生 依 赖 ， 因 此 我 们 看 到 这 两 种 方法 对 于 无 限 宽 的 先 
验 概率 分 布 会 给 出 相同 的 结果 。 

















10.3.2 ”预测 分 布 
给 定 一 个 新 的 输入 z， 使 用 参数 的 高 斯 变 分 后 验 概率 很 容易 计算 出 上 上 的 预测 分 布 ， 即 


p(t | w,t) = / pt | 1, ww)p(1w | +) da 
~ {pl | ww)alw) dw 


fwe [wT 8(2), BN(w | mw, SN) dw 
=N(t| my pr),o*(z)) 


(10.105) 
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其 中 我 们 使 用 了 公式 (2.115) 给 出 的 线性 高 斯 模型 的 结果 计算 积分 。 这 里 ， 与 输入 相关 的 方差 
为 
oa2(z) = 3 + Bz) SNwd(z) (10.100) 


注意 ， 这 与 我 们 固定 a 得 到 的 结果 (3.59) 的 形式 相同 ， 唯 一 的 区 别 在 于 现在 期 望 值 E 
在 SN 的 定义 中 。 











al] 出现 





10.3.3 下 界 
另 一 个 很 重要 的 量 是 下 界 上 ， 定 义 为 
£(g) = Ellnp(w, oot)] — Elin gq(w, oj] 
= Evllnp(t | 2w)] + Evalln p(w | o)] + Ealln p(a)] (10.107) 
— Ealln gq(w)]w — Ellin q(o)] 


使 用 之 前 章节 得 到 的 结果 ， 计 算 各 项 的 值 是 很 容易 的 ， 结 果 为 

























































































Elln p(t | zolw = ( 河 Bir Bm ®t 









































0 (10.108) 
S STE TE (mymy 十 SN)] 
En p(w | Q) Jw,a 2 ln (27) 市 (Wan) 一 ln bn) 
0 (10.109) 
守 | NmN +Tr(SN)] 
N 
slln p(o)la =aoln bo + (a0 — DW(an) — Inby] 
a (10.110) 
bN 
—Elln gq(w)jw = sn 1Sw| 十 ll 十 ln(2r)] (10.111) 
—Eling(a)la = InT(an)— (an 一 JWav) 一 Inbpv 十 QN (10.112) 











图 10.9 给 出 了 下 界 C(g) 与 多 项 式 模型 的 阶 数 的 关系 图 像 ， 数 据 集 是 从 一 个 三 阶 多 项 式 中 人 工 
生成 的 。 这 里 ， 先 验 参 数 被 设置 为 oo = b0 = 0， 对 应 于 无 信息 先 验 p(a) x zz。 根 据 2.3.6 节 的 
讨论 ， 它 是 ina 上 的 均匀 分 布 。 正 如 我 们 在 10.1 节 看 到 的 那样 ，C 表 示 模 型 的 对 数 边缘 似 然 函 
数 Inplt | M) 的 下 界 。 因 此 ， 变 分 框架 将 最 高 的 概率 赋予 了 M = 3 的 模型 。 这 与 最 大 似 然 的 结果 
相反 。 最 大 似 然 方 法 通过 增加 模型 的 复杂 度 尽 可 能 地 让 误差 变 小 ， 直 到 误差 趋 于 零 ， 这 导致 了 
最 大 似 然 方法 倾向 于 选择 具有 严重 过 拟 合 现象 的 模型 。 


10.4 ”指数 族 分 布 


在 第 2 章 中 ， 我 们 讨论 了 指数 族 概率 分 布 和 它们 的 共 轿 先 验 的 重要 作用 。 对 于 本 书 中 讨论 的 
许多 模型 来 说 ， 完 整数 据 是 服从 指数 族 分 布 的 。 然 而 ， 通 常 这 对 于 观测 数据 的 边缘 似 然 函 数 来 
说 是 不 成 立 的 。 例 如 ， 在 混合 高 斯 模型 中 ， 观 测 数据 zn 和 对 应 的 隐 含 变量 zn 的 联合 概率 分 布 是 
指数 族 分 布 的 成 员 ， 但 是 x 的 边缘 概率 分 布 是 高 斯 混合 分 布 ， 因 此 不 是 指数 族 的 成 员 。 

目前 为 止 ， 我 们 将 模型 中 的 变量 分 为 了 观测 变量 和 隐 含 变量 两 组 。 我 们 现在 进一步 地 将 潜在 
变量 和 参数 区 分 开 。 潜 在 变量 ( 记 作 2Z) 是 分 散 的 (extensive) ， 它 的 数量 随 着 数据 集 规 模 的 增 
大 而 增 大 。 参 数 ( 记 作 90) 是 聚集 的 〈intensive) ， 它 的 数量 固定 ， 与 数据 集 的 规模 无 关 。 例 
如 ， 在 高 斯 混合 模型 中 ， 指 示 变 量 zxnr (表示 哪个 分 量 [ 对 生成 数据 点 zn 起 作用 ) 表示 潜在 变 
量 ， 而 均值 kx、 精度 Ax 以 及 混合 系数 区 表示 参数 。 
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1 3 时 9 


图 10.9: 对 于 一 个 多 项 式 模型 ， 下 界 £ 与 多 项 式 阶 数 M 的 关系 曲线 ， 其 中 ,一 个 具有 10 个 数据 点 的 数据 集 
由 区 间 ( 一 5, 5) 上 的 一 个 M = 3 的 多 项 式 生 成 ， 同 时 附加 了 方差 为 0.09 的 高 斯 噪声 。 下 界 的 值 给 出 了 模型 的 
对 数 概 率 ， 并 且 我 们 看 到 下 界 在 M = 3 时 达到 峰值 ， 对 应 于 生成 数据 集 的 真实 模型 。 


考虑 独立 同 分 布 数据 的 情形 。 我 们 将 数据 的 值 记 作 瑟 = {zn}， 其 中 n = 1,.….,N， 对 应 的 
潜在 变量 为 2 = {zn}。 现 在 假设 观测 变量 和 隐 含 变量 的 联合 概率 分 布 为 指数 族 分 布 的 成 员 ， 参 
数 为 自然 参数 nn， 即 


p(X,Z|7)= h(zn, zn)g(n) exp{n uu(zn, zn)} (10.113) 


1 = 


n=1 


我 们 也 会 使 用 7 的 一 个 共 恩 先 验 ， 它 可 以 写成 
p(n | vo, Xo) = f(rvo, Xo)9(W)” exp{fzom7Xo} (10.114) 


回忆 一 下 ， 共 轿 先 验 分 布 的 意义 为 ， 对 于 久 向 量 来 说 ， 所 有 值 为 Xo 的 观测 的 先 验 数量 vo。 现在 
考虑 一 个 变 分 分 布 ， 它 可 以 在 潜在 变量 和 参数 之 间 进 行 分 解 ， 即 q(2,m) = 9(2Z)q(7)。 使 用 一 般 
的 结果 “(10.9) ,我 们 可 以 解 出 这 两 个 因子 ， 如 下 所 述 。 


Ing*(2Z) = Enlinp(XX, 攻 |) 十 常数 














(10.115) 














N 
= >》 {np(znzn) 十 了 Im7]u(zn zn)} + 常数 
n=1 
因此 我 们 看 到 它 可 以 分 解 为 一 组 相互 独立 的 项 的 加 和 ， 每 个 n 都 对 应 于 一 项 ， 因 此 gq*(Z) 的 解 可 
以 在 mn 上 进行 分 解 ， 即 qg*(Z) = [1,,9*(zn)。 这 是 诱导 分 解 的 一 个 例子 。 两 侧 取 指数 ,我们 有 
g* (zn) = h(xn, zn)g(E[n)) exp{Elny Ju (xn, zn)} (10.110) 


其 中 归 一 化 系数 已 经 通过 与 指数 族 分 布 的 标准 形式 进行 比较 的 方式 得 到 。 
类 似 地 ， 对 于 参数 上 的 变 分 分 布 ， 我 们 有 


















































lIng*(n) = lnp(n | vo, Xo) + Ezllnp(X, Z|)] 十 常数 (10.117) 
N 
= volng(n) + vom Xo + > {lng(n) + 7 Ez, [u(rzn, zn)]} 十 常数 (10.118) 
视 尘 二 
与 之 前 一 样 ， 两 侧 取 指数 ， 然 后 通过 观察 法 确定 归 一 化 系数 ， 我 们 有 
gq*(n) = jw XN)gN)N exp{vnm XN} (10.119) 
其 中 我 们 已 经 定义 了 
vy=vw+N (10.120) 
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N 
VNXN = VoXo 十 >， Ez, [|w(Zn, 2m)] (10.121) 

n=1 
注意 ，g”(zn) 的 解 与 9*(n) 的 解 相 互 偶合 ， 因 此 我 们 可 以 使 用 一 个 两 阶段 的 迭代 方法 进行 求 
解 。 在 变 分 E 步 又 中 ,我们 使 用 潜在 变量 上 的 当前 后 验 概率 分 布 4(zn) 计 算 充 分 统计 量 的 期 
望 Elu(zn, zn)]， 并 且 使 用 这 个 结果 计算 参数 上 的 修正 的 后 验 概率 分 布 gq(m)。 然 后 ， 在 接 下 来 的 
变 分 M 步 又 中 ， 我 们 使 用 修正 后 的 参数 后 验 概率 分 布 寻 找 自然 参数 的 期 望 E[m7]， 它 给 出 了 潜在 


变量 上 的 修正 后 的 变 分 分 布 。 









































10.4.1 变 分 信息 传递 

我 们 通过 详细 讨论 一 个 具体 的 模型 来 说 明 变 分 方法 的 应 用 ， 这 个 模型 是 高 斯 模型 的 贝 叶 斯 混 
合 。 这 个 模型 可 以 被 表示 为 图 10.5 中 的 有 向 图 。 这 里 我 们 从 更 一 般 的 角度 来 讨论 由 有 向 图 描述 的 
模型 中 对 变 分 方法 的 使 用 ， 推 导出 一 些 具 有 广泛 适用 性 的 结果 。 

对 应 于 有 向 图 的 联合 概率 分 布 可 以 写成 下 面 的 分 解 形式 


z(z) = | [pCi | po) (10.122) 
1 
其 中 zi 表示 与 结 点 i 关联 的 变量 ，paj 表 示 与 结 点 i 对 应 的 父 结 点 集合 。 注 意 ，zi 可 能 是 一 个 潜在 


变量 ， 也 可 能 属于 观测 变量 集合 。 现 在 ， 考 虑 一 个 变 分 近似 ， 其 中 我 们 假定 概率 分 布 d(z) 可 以 
关于 zi 进行 分 解 ， 即 
qz) = | [ai(zi) (10.123) 


注意 ， 对 于 观测 结 点 ， 在 变 分 分 布 中 没有 因子 9(z;)。 我 们 现在 将 公示 (10.122) 代入 我 们 的 一 
般 结 果 (10.9) 中 ， 可 得 











十 常数 (10.124) 





ln qj (2j) = Eizy; > lInp(zi | pa;) 
1 





等 式 右 侧 的 任何 不 依赖 于 zx; 的 项 都 可 以 整合 到 可 加 性 常数 中 。 事 实 上 ， 了 唯一 依赖 于 zj 的 项 
是 由 p(x; | paj) 给 出 的 zj; 的 条 件 概 率 分 布 以 及 任何 在 条 件 集合 中 具有 zx; 的 条 件 概 率 分 布 。 根 


据 定义 ， 这 些 条 件 概率 分 布 对 应 于 结 点 j 的 子 结 点 ， 因 此 他 们 也 依赖 于 子 结 点 的 同 父 结 点 
(co-parents) ， 即 子 结 点 的 除了 结 点 2; 本 身 之 外 的 其 他 父 结 点 。 我 们 看 到 ，Q} (zj;) 所 依赖 的 所 


有 结 点 组 成 的 集合 对 应 于 结 点 2 的 马尔 科 夫 毯 ， 如 图 8.26 所 示 。 因 此 ， 在 变 分 后 验 概率 分 布 中 
的 更 新 因子 表示 图 上 的 一 个 局 部 计算 。 这 使 得 构建 用 于 变 分 推断 的 具有 一 般 性 的 软件 成 为 可 
能 ， 在 这 种 一 般 性 的 变 分 推断 中 ， 模 型 的 形式 不 必 事 先 指 定 (Bishop et al, 2003) 。 

如 果 我 们 现在 确定 模型 的 形式 ， 其 中 所 有 的 条 件 概 率 分 布 都 有 一 个 共 轿 -指数 族 的 结构 ， 那 
么 变 分 推断 的 过 程 可 以 被 转化 为 局 部 信息 传递 算法 (Winn and Bishop, 2005) 。 特 别 地 ， 对 于 一 








个 特定 的 结 点 来 说 ， 一 旦 它 接收 到 了 来 自 所 有 的 父 结 点 和 所 有 的 子 结 点 的 信息 ， 那 么 与 这 个 结 
点 相关 联 的 概率 分 布 就 可 以 被 更 新 。 这 反 过 来 需要 子 结 点 从 它们 的 同 父 结 点 已 经 接收 完毕 信 


息 。 下 界 的 计算 也 可 以 得 到 简化 ， 因 为 许多 必要 的 值 已 经 作为 信息 传递 框 染 的 一 部 分 计算 完 
毕 。 分 布 的 信息 传递 形式 有 很 好 的 缩放 性 质 ， 对 于 大 的 网 络 很 合适 。 


10.5 ”局 部 变 分 方法 


10.1 节 和 10.2 节 讨论 的 变 分 框架 可 以 被 看 做 "全 局 "方法 。 之 所 以 这 样 说 ， 是 因为 它 直 接 寻 找 所 
有 随机 变量 上 的 完整 的 后 验 概率 分 布 的 近似 。 男 一 种 “局 部 "的 方法 涉及 到 寻找 模型 中 的 单独 的 
变量 或 者 变量 组 上 定义 的 函数 的 界限 。 例 如 ， 我 们 可 能 寻找 条 件 概率 分 布 p(y | x) 的 界限 ， 这 个 
条 件 概 率 本 身 仅仅 是 一 个 由 有 向 图 模型 描述 的 更 大 的 概率 模型 中 的 一 个 因子 。 引 入 界限 的 目的 
显然 是 简化 最 终 得 到 的 概率 分 布 。 这 个 局 部 近似 可 以 应 用 于 多 个 变量 ， 直 到 得 到 一 个 可 以 处 理 
的 近似 。 在 10.6.1 节 ， 我 们 会 在 logistic 回 归 的 问题 中 给 出 这 种 方法 的 一 个 实际 例子 。 这 里 ， 我 们 
关注 求解 界限 本 身 。 
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né — g(n) 


0.5 0.2 




















图 10.10: 在 左 图 中 ， 红 色 曲 线 表 示 函 数 exp( 一 x)， 蓝 色 直 线 表示 公式 (10.125) 定义 的 在 z = 8 处 的 切 
线 ， 其 中 & = 1。 这 条 直线 的 斜率 为 n = 广 (6) = 一 exp -和 上。 注意 ， 任 何其 他 的 切线 ， 例 如 绿色 的 切线 ， 
在 zx = & 处 都 会 有 一 个 更 小 的 y 值 。 右 图 给 出 了 函数 7 一 9(m) 关 于 m 的 图 像 ， 其 中 g(n) 由 公式 (10.131) 给 
出 ,，& = 1， 此 时 最 大 值 对 应 于 n= 一 exp(--6) = 一 1/e。 











我 们 已 经 看 到 ， 在 我 们 对 Kullback-Leibler 散 度 的 讨论 中 ， 对 数 函 数 的 凸 函 数 性 质 在 求解 全 局 
变 分 方法 的 下 界 时 起 着 关键 的 作用 。 我 们 将 一 个 (严格) 凸 函数 定义 为 每 条 弦 都 位 于 函数 上 方 
的 函数 。 凸 函数 的 性 质 对 于 局 部 变 分 的 框架 也 起 着 核心 的 作用 。 注 意 ， 我 们 的 讨论 同样 适用 于 
凹 函数 ， 只 需 交 换 最 大 值 运算 与 最 小 值 运算 ， 将 下 界 变 为 上 界 即 可 。 

让 我 们 首先 考虑 一 个 简单 的 例子 ， 即 函数 f(z) = exp( 一 x)， 它 是 z 的 一 个 凸 函数 ， 如 图 10.10 
的 左 图 所 示 。 我 们 的 目标 是 使 用 一 个 简单 的 函数 来 近似 f(z)， 特 别 地 ， 使 用 zx 的 一 个 线性 函数 。 
根据 图 10.10， 我们 看 到 ， 如 果 这 个 线性 函数 对 应 于 一 条 切线 ， 那 么 它 是 函数 f(z) 的 下 界 。 我 们 
可 以 得 到 在 一 个 具体 的 z 处 的 y(z) 的 切线 ， 例 如 z = 8 处 ， 方 法 是 使 用 一 阶 泰勒 展开 式 


y(z) = f(€) + fF (A(z —é) (10.125) 


从 而 y(z) < f(x)， 且 等 号 只 在 x = & 时 成 立 。 对 于 我 们 的 例子 ， 通 数 f(z) = exp( 一 x*)， 因 此 我 们 
得 到 了 切线 的 形式 如 下 





V(Z) = exp(—é€) — exp(—é)(x —é) (10.120) 
它 是 一 个 以 6 为 参数 的 线性 函数 。 为 了 与 后 续 的 讨论 相 容 ， 让 我 们 定义 7 = 一 exp( 一 6)， 即 
y(X,n) = nT— n+nln(—n) (10.127) 


不 同 的 " 值 对 应 于 不 同 的 切线 ， 并 且 由 于 所 有 的 切线 都 是 函数 的 下 界 ， 因 此 我 们 
有 f(z) > yz,7)。 因 此 我 们 可 以 将 函数 写成 下 面 的 形式 


f(z) = 和 on 一 7 二 71ln( 一 m7)} (10.128) 





我 们 已 经 成 功 地 用 一 个 简单 的 线性 函数 y(z, 79) 来 近似 凸 函 数 .入 z)。 代 价 是 我 们 引入 了 一 个 变 
分 参数 75， 并 且 为 了 得 到 最 紧 致 的 界限 ， 我 们 必须 关于 7 进行 最 优化 。 

我 们 可 以 使 用 凸 对 偶 (convex duality) 的 框架 更 加 一 般 地 形式 化 描述 这 种 方法 (Rockafellar, 
1972; Jordan et al., 1999) 。 考 虑 图 10.11 的 左 侧 图 给 出 的 凸 函 数 fz)。 在 这 个 例子 中 ， 函 
数 nz 是 f(z) 的 一 个 下 界 ， 但 不 是 斜率 为 n 的 线性 函数 能 够 达到 的 的 最 好 的 下 界 ， 因 为 最 紧 致 的 下 
界 由 切线 给 出 。 让 我 们 将 斜率 为 n 的 切线 的 方程 写成 nx 一 9(7)， 其 中 截 距 (的 负 值 ) g(n) 显 然 依 
赖 于 切线 的 斜率 7。 为 了 确定 截 距 ， 我 们 注意 到 这 条 直线 必须 垂直 移动 一 段 距离 ， 这 上 段 距离 等 于 
直线 和 函数 之 间 最 小 的 垂直 距离 ， 如 图 10.11 所 示 。 因 此 

9(m) = — min{ f(x) — nx} 
(10.129) 
= max{nz — f (2)} 
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nz — g(n) 





图 10.11: 在 左 图 中 ,红色 曲线 给 出 了 一 个 凸 函数 f(z)， 蓝 色 曲 线 表 示 线 性 函数 7z， 它 是 f(z) 的 一 个 下 
界 ， 因 为 对 于 所 有 的 x 都 有 f(x) > mr。 对 于 给 定 的 斜率 7 的 值 ， 具 有 相同 斜率 的 切线 的 接触 点 可 以 通过 关 
于 z 最 小 化 差距 f(x) 一 nz 的 方式 得 到 ， 差 距 用 绿色 虚线 表示 。 这 定义 了 对 偶 函 数 g(m)， 它 对 应 于 具有 和 斜 
率 7 的 切线 的 截 距 (的 负 值 ) 。 





现在 ， 我 们 不 去 固定 7 改变 z， 而 是 可 以 考虑 一 个 特定 的 z 值 ， 然 后 调节 mn， 直 到 切 平面 在 这 个 特 
定 的 x 处 与 函数 f(z) 相 切 。 由 于 在 特定 的 x 处 ， 当 切线 的 y 值 与 它 的 连接 点 的 y 值 相等 时 ，y 的 值 
最 大 ， 因 此 我 们 有 

f(z) = ts — 9(7)} (10.130) 


我 们 看 到 函数 f(z) 和 g(m) 的 角色 是 对 偶 的 ， 二 者 通过 公式 (10.129) 和 公式 (10.130) 相互 关 
联 。 
让 我 们 将 这 两 个 对 侦 关 系 应 用 到 我 们 简单 的 例子 f(x) = exp( 一 z+) 中 。 根 据 公式 (10.129) ， 
我 们 看 到 z 的 最 大 值 为 5 = 一 la( 一 n)， 代 回 到 公式 中 ,我们 得 到 了 共 轧 函数 g(m)， 形 式 为 


9(7) =7— nn(—n) (10.131) 


与 之 前 得 到 的 结果 相同 。 对 于 é& = 1 的 情况 函数 m& 一 9(m) 的 图 像 如 图 10.10 右 侧 所 示 。 作 为 检查 ， 
我 们 可 以 将 公式 (10.131) 代入 到 公式 (10.130) ， 这 给 出 了 最 大 值 7 = 一 exp( 一 +)， 代 回 到 公式 
中 就 恢复 出 了 原始 的 函数 f(x) = exp( 一 x)。 

对 于 止 函数 ， 我 们 可 以 采用 类 似 的 推导 方式 ， 得 到 上 界 ， 其 中 最 大 化 运算 被 替换 为 最 小 
化 运算 ， 即 





f(x) = rind — g(7)} (10.132) 
9(m) = min{nz — f(7)} (10.133) 


如 果 感 兴趣 的 函数 不 是 凸 函数 (或 者 是 函数 ) ， 那 么 我 们 不 能 直接 应 用 这 种 方法 得 到 上 述 界 
限 。 然 而 ， 我 们 可 以 首先 寻找 函数 或 者 参数 的 一 个 可 逆 变 换 ， 这 个 变换 将 函数 或 者 参数 变换 为 
一 个 凸 浮 数 的 形式 。 然 后 ， 我 们 计算 共 轿 函数 ， 之 后 变换 回 原始 的 变量 。 

在 模式 识别 中 经 常 出 现 的 一 个 重要 的 例子 时 logistic sigmoid 胃 数 ， 它 的 定义 为 


1 
0) = Te 


这 个 函数 不 是 凹 函 数 也 不 是 凸 冰 数 。 然 而 ， 如 果 我 们 取 对 数 ， 那 么 我 们 就 得 到 了 一 个 凹 函 数 ， 
这 一 点 通过 取 二 阶 导 数 的 方式 很 容易 证 明 。 根 据 公 式 (10.133) ,对 应 的 共 轿 函数 的 形式 为 


901) = min{nz = f(7)} = -nan (1— 7) ln(l—) (10.135) 


我 们 看 到 ， 它 是 一 个 二 值 变 量 的 粹 ， 这 个 变量 的 取 值 为 1 的 概率 为 7。 使 用 公式 (10.132) ,我 们 
得 到 了 对 数 sigmoid 函 数 的 一 个 上 界 





(10.134) 








lno(z) < nx — g(n) (10.130) 
然后 取 指数 ， 我 们 得 到 了 logistic sigmoid 函 数 的 一 个 上 界 ， 形 式 为 
al(Z)<exp(7T0 一 9(7)) (10.137) 
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图 10.12: 左 图 中 ， 红 色 曲 线 给 出 了 公式 (10.134) 定义 的 logistic sigmoid 函 数 c(z)。 同 时 给 出 的 还 有 两 个 
指数 上 界 (10.137) 的 例子 ， 用 蓝 色 曲线 表示 。 右 图 再 次 用 红色 曲线 给 出 了 logistic sigmoid 函 数 。 同 时 给 
出 的 还 有 高 斯 下 界 (10.144) ， 用 蓝 色 曲线 表示 。 这 里 ， 参 数 & = 2.5， 界 限 在 z = 5 和 7z = 一 出事 精确 
的 ， 用 绿色 曲线 标记 。 


对 于 两 个 不 同 的 7 值 ， 图 像 如 图 10.12 的 左 图 所 示 。 

我 们 也 可 以 得 到 sigmoid 函 数 的 下 界 ， 下 界 的 函数 形式 是 高 斯 形式 。 为 了 完成 这 件 事 ， 我 
们 采用 Jaakkola and Jordan (2000) 的 方法 ， 对 输入 变量 和 函数 本 身 都 进行 变换 。 首 先 ， 我 们 
取 logistic 通 数 的 对 数 ， 然 后 将 其 分 解 ， 即 


Ino(z)=—In(1+e ®)=—In {3 (es + oi)} 


n . (10.138) 
=35—In (es +e 3) 








我 们 现在 注意 到 ， 函 数 /Flz) = 一 In (o +e 是 变量 z? 的 一 个 是 函数 ， 这 一 点 可 以 通过 取 二 阶 
导数 的 方式 证 明 。 这 产生 了 f(z) 的 下 界 ， 它 是 z? 的 一 个 线性 函数 ， 它 的 共 轿 函数 为 


gm) = max {ne? —f (Va)} (10.139) 
根据 驻 点 的 条 件 可 得 Po i 
0 一 7 一 a =71+ 二 tanh (3) (10.140) 


如 果 我 们 将 这 个 值 记 作 x， 对 应 于 在 这 个 特定 的 n 值 下 ， 函 数 与 切线 的 接触 点 ， 记 作 ”， 那 么 我 
们 有 








"TT oe (3) 元 be | =N) (10.141) 


其 中 ， 我 们 定义 了 和 = -7， 保 持 与 Jaakkola and Jordan (2000) 的 相 容 性 。 我 们 不 把 和 看 成 变 分 
参数 ， 相 反 ， 我 们 可 以 令 5 为 变 分 参数 ， 因 为 这 会 产生 共 斩 函 数 的 更 简单 的 表达 式 ， 它 的 形式 为 


g(A(é)) = —AE)E — f(€) = AOE +In (es 烛 es) (10.142) 
这 里 ，f(z) 的 界限 可 以 写成 
f(z) > -AM6z2 — g(A(E)) = —AE)z? — ME)E? — In (es +e$) (10.143) 
sigmoid 函 数 的 界限 就 变 成 了 
0) 20 op{ SE -MO -eo)) (0149 
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其 中 A(6) 的 定义 为 〈10.141) 。 这 个 界限 如 图 10.12 的 右 图 所 示 。 我 们 看 到 ， 界 限 的 函数 形式 
是 z 的 二 次 函数 的 指数 形式 。 当 我 们 寻找 通过 logistic sigmoid 函 数 定义 的 后 验 概 率 分 布 的 高 斯 表 
示 时 ， 这 个 界限 的 形式 很 有 用 。 

logistic sigmoid 函 数 在 二 值 变 量 上 的 概率 模型 中 经 常 出 现 ， 因 为 它 是 将 log odds 函 数 转换 为 
后 验 概率 分 布 的 函数 。 对 于 多 类 分 布 ， 对 应 的 变换 由 softmax 函 数 给 出 。 不 幸 的 是 ， 这 里 推导 
出 logistic sigmoid 函 数 的 下 界 不 能 直接 扩展 到 softmax 函 数 。Gibbs (1997) 提出 了 一 种 构建 高 斯 
分 布 的 方法 ， 这 个 高 斯 分 布 被 猜想 为 是 一 个 界限 (虽然 没有 给 出 严格 的 证 明 ) ， 这 可 以 用 于 将 
局 部 变 分 方法 应 用 到 多 分 类 问题 。 

我 们 会 在 10.6.1 节 看 到 局 部 变 分 界限 的 一 个 例子 。 然 而 ， 现 阶段 从 一 般 的 角度 考虑 这 些 界限 
如 何 被 使 用 是 很 有 意义 的 。 假 设 我 们 想 计 算 一 个 形式 如 下 的 积分 





下 三 f sor da (10.145) 


其 中 o(a) 是 一 个 logistic sigmoid 函 数 ，p(a) 是 一 个 高 斯 概率 密度 。 当 我 们 项 计算 贝 叶 斯 模型 中 的 
预测 分 布 时 ， 这 种 积分 会 经 常 出 现 ， 此 时 p(o) 表 示 一 个 后 验 参数 分 布 。 由 于 积分 是 无 法 直接 计 
算 的 ， 因 此 我 们 使 用 变 分 界限 (10.144) ， 我 们 将 它 写 成 c(a) > 帮 a 上)， 其 中 上 是 一 个 变 分 参 
数 。 积 分 现在 变 成 了 两 个 指数 -二 次 函数 的 乘积 ， 因 此 可 以 解析 地 求 出 积分 ， 给 出 7 的 界限 


站 光 . prorata) dos Be (10.146) 


我 们 可 以 自由 地 选择 变 分 参数 4， 这 里 我 们 选择 最 大 化 函数 了 (&) 的 值 *。 得 到 的 值 F(&*) 表 示 在 
所 有 的 界限 中 最 紧 致 的 界限 ， 可 以 用 来 近似 I。 然 而 ， 这 个 最 优化 的 界 通 常 不 是 精确 的 。 虽 
然 logistic sigmoid 函 数 的 界限 o(a) > f(a, 可 以 被 精确 地 最 优化 ， 但 是 8 的 最 优选 择 依 赖 于 a 的 
值 ， 从 而 界限 只 对 一 个 a 的 值 是 精确 的 。 由 于 F(6) 可 以 通过 对 的 所 有 值 上 进行 积分 的 方式 得 
到 ， 因 此 结 的 值 表示 一 个 折 中 ， 权 值 为 概率 分 布 p(a)。 


10.6” 变 分 logistic 回 归 


我 们 现在 回 到 4.5 节 研究 的 贝 叶 斯 logistic 回 归 模 型 ， 说 明 局 部 变 分 方法 的 应 用 。 在 4.5 节 ， 我 
们 将 注意 力 集中 于 拉 普 拉 斯 近似 的 使 用 ， 而 这 里 ， 我 们 考虑 一 种 贝 叶 斯 的 方法 ， 本 方法 基 
于 Jaakkola and Jordan (2000) 的 方法 。 与 拉 普 拉 斯 方法 相似 ， 这 也 会 生成 后 验 概率 分 布 的 高 斯 
近似 。 然 而 ， 变 分 方法 的 极 大 的 灵活 性 使 得 模型 的 准确 率 与 拉 普 拉 斯 相 比 有 所 提升 。 此 外 ， 与 
拉 普 拉 斯 方法 不 同 ， 变 分 方法 最 优化 一 个 具有 良好 定义 的 目标 函数 ， 这 个 目标 函数 由 模型 证 据 
的 一 个 严格 界限 给 定 。Dybowski and Roberts (2005) 也 从 贝 叶 斯 的 角度 研究 了 logistic 回 归 问 
题 ， 使 用 了 蒙特 卡 罗 取 样 的 技术 。 








10.6.1 变 分 后 验 概率 分 布 


这 里 ， 我 们 会 使 用 一 种 基于 10.5 节 介绍 的 局 部 界限 的 变 分 方法 。 这 使 得 logistic 回 归 的 似 然 函 
数 (由 logistic sigmoid 函 数控 制 ) 可 以 有 指数 的 二 次 形式 近似 。 因 此 ，。 与 之 前 一 样 ， 比 较 方便 的 
做 法 是 选择 形式 为 (4140) 的 共 罗 高 斯 先 验 。 现 阶段 ， 我 们 会 将 超 参数 mo 和 50 看 成 固定 的 党 
数 。 在 10.6.3 节 ， 我 们 会 展示 变 分 形式 如 何 扩展 到 超 参数 未 知 的 情形 ， 这 种 情况 下 ， 超 参数 的 什 
要 从 数据 中 进行 推断 。 
在 变 分 的 框架 上 ， 我 们 寻找 边缘 似 然 函数 的 下 界 的 最 大 值 。 对 于 贝 叶 斯 logistic 回 归 模 型 ， 边 
缘 似 然 函数 的 形式 为 
N 
mm- [rtd so= /| ss | ro) so 40.147) 


n=1] 
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首先 ， 我 们 注意 到 1 的 条 件 概率 分 布 可 以 写成 


plt|w)=0(0) 1 一 (Oh 


1 1 1—t 
二 (到 (4 1 (10.148) 


oat 人 oat 
0 o(—a) 








其 中 a = w 了 8。 为 了 得 到 p(t) 的 下 界 ， 我 们 使 用 公式 (10.144) 给 出 的 logistic sigmoid 函 数 的 变 
分 下 界 。 为 了 方便 ,我 们 在 这 里 重新 写 一 下 。 





al(z) > olé) exp { A (10.149) 
其 中 
MX9 = 去 |"G -了 do450 
于 是 ， 我 们 有 
plt| 0) = eto(-0) 2 ro) exp { -EMO 6) (10.151) 


注意 ， 由 于 这 个 下 界 分 别 作用 于 似 然 通 数 的 每 一 项 ， 因 此 存在 一 个 变 分 参数 6 ， 对 应 于 训练 集 
的 每 个 观测 (8,tn)。 使 用 a = wTB， 乘 以 先 验 概率 分 布 ， 我 们 可 以 得 到 下 面 的 t 和 w 的 联合 概 


p(t,w) = p(t | w)p(w) > h(w, €)p(w) (10.152) 
其 中 ，& 表 示 变 分 参数 的 集合 {En}， 并 且 


N 
h(w, é) = [I o (én) exp{ ww’ Pitn 二 (00 十 én)/2 


n=1 


= XB (ho pol = 


精确 计算 这 个 后 验 概率 分 布 需要 对 不 等 式 的 左 侧 进行 归 一 化 。 由 于 这 是 无 法 计算 的 ， 因 此 我 们 
反 过 来 对 右 侧 进 行 操作 。 注 意 ， 右 侧 的 函数 不 能 看 成 一 个 概率 密度 ， 因 为 它 没有 被 归 一 化 。 但 
是 ,一旦 它 被 归 一 化 ， 表 示 一 个 后 验 概率 分 布 g(ww) ， 它 就 不 再 表示 下 界 了 。 

由 于 对 数 函数 是 单调 递增 的 函数 ， 因 此 不 等 式 4 > B 表 示 In 4 > ln B。 这 给 出 了 t 和 iw 之 间 的 
联合 概率 分 布 的 对 数 的 下 界 ， 形 式 为 


(10.153) 





N 
In{p(t | w)p(w)} > Inp(w) + > {lno(én) + tw pntn 


< (10.154) 
— (wT pn + én)/2 — Aén) (lw pl? — 2)} 
代入 先 验 概率 分 布 p(w)， 不 等 式 的 右 侧 变 成 了 一 个 关于 w 的 函数 ， 形 式 为 
5(w 一 mo) So!(w — mo) 
N (10.155) 
+ >》 _{w paltn — 1/2) 一 和 (En)w (Bng84)w} 十 常数 


n=1] 


这 是 也 的 一 个 二 次 函数 ， 因 此 我 们 可 以 通过 分 裂 出 w 的 线性 项 和 二 次 项 ， 得 到 后 验 概率 分 布 的 
对 应 的 变 分 近似 ， 这 是 一 个 高 斯 变 分 后 验 概率 ， 形 式 为 


q(w) = N(w | mnN, SN) (10.150) 
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卫 


N 
mN= SN (sm 十 >， (we = 3) ,| (10.157) 


n=1 


N 
SN 一 S0 +2 Nn) nOn (10.158) 
n=1 
与 拉 格 朗 日 框架 一 样 ， 我 们 又 一 次 得 到 了 对 后 验 概率 分 布 的 一 个 高 斯 近似 。 然 后 ， 变 分 参 
数 {&} 提 供 的 额外 的 灵活 性 使 得 这 个 近似 的 精度 更 高 (Jaakkola and Jordan, 2000) 。 

这 里 ,我们 考虑 了 一 个 批量 学 习 的 问题 ， 其 中 所 有 的 训练 数据 能 够 一 次 全 部 得 到 。 然 而 ， 贝 
叶 斯 方法 本 质 上 相当 适用 于 顺序 学 习 的 问题 ， 其 中 数据 点 每 次 只 处 理 一 个 ， 然 后 被 丢弃 。 得 到 
顺序 学 习 情 形 下 的 变 分 方法 的 公式 是 很 容易 的 。 

注意 ， 公 式 (10.149) 给 出 的 下 界 只 适用 于 二 分 类 问题 ， 因 此 这 个 方法 不 能 直接 推广 
到 KK > 2 个 类 别 的 多 类 问题 。Gibbs (1997) 研究 了 多 分 类 问题 的 另 一 种 下 界 的 形式 。 


10.6.2 ”最 优化 变 分 参数 


我 们 现在 得 到 了 后 验 概率 分 布 的 一 个 归 一 化 的 高 斯 近似 。 我 们 稍 后 会 使 用 这 个 近似 得 到 对 
于 新 数据 的 预测 分 布 。 然 而 ， 首 先 我 们 需要 通过 最 大 化 边缘 似 然 函数 的 下 界 ， 确 定 变 分 参 
数 {é&n}。 

为 了 完成 这 一 点 ， 我 们 首先 将 不 等 式 (10.152) 代 回 到 边缘 似 然 函 数 ， 可 得 





oe / Te . os (10.159) 


与 3.5 节 的 线性 回归 模型 的 超 参 数 a 的 最 优化 一 样 ， 有 两 种 方法 确定 6。 在 第 一 种 方法 中 ,我们 
看 到 通 数 L(&) 由 w 上 的 积分 定义 ， 因 此 我 们 可 以 将 ww 看 成 一 个 潜在 变量 ， 然 后 使 用 EM 算法 。 在 
第 二 种 方法 中 ， 我 们 解析 地 对 w 积 分 ， 然 后 直接 关于 6 进行 最 大 化 。 让 我 们 首先 考虑 EM 方法 。 

在 EM 算法 中 ， 首 先 选 择 参数 {&n} 的 某 个 初始 值 ， 我 们 将 这 些 初 始 值 聚集 在 一 起 ， 记 
作 {&} 晶 。 然 后 在 EM 算法 的 BE 步骤 中 ， 我 们 使 用 这 些 参 数值 找到 w 上 的 后 验 概率 分 布 ， 它 由 公式 
(10.156) 给 出 。 之 后 在 M 步 又 中 ,我 们 最 大 化 完整 数据 似 然 函 数 的 期 望 ， 形 式 为 


Q(é, 8) = Ella{h(w, é)p(w)}] (10.160) 


其 中 期 望 是 关于 使 用 6 得 到 的 后 验 概率 分 布 vd(w) 进 行 计算 的 。 注 意 ，p(w) 不 依赖 于 ， 代 
入 h(w,&)， 我 们 有 


























N 

Qe9) = D> {no(6) -分 一 XE)(GTElow jp -的 上 二 党 (1016D) 
n=1 

其 中 ，“ 常 数 "表示 与 6 无 关 的 项 。 我 们 现在 令 关 于 6 的 导数 等 于 零 。 经 过 简单 的 代数 推导 使 

用 c( 和 X(6)， 有 











0= NX(én) (pnEhww’ ]gn — &) (10.162) 
现在 ， 我 们 注意 到 ， 对 于 & > 0,， 入 (&) 是 8 的 一 个 单调 函数 ， 并 且 由 于 界限 在 é = 0 两 侧 的 对 称 
性 ， 我 们 可 以 将 我 们 的 注意 力 限 制 在 5 的 非 负 部 分 而 不 失 一 般 性 。 因 此 ，X (6) 取 0， 从 而 我 们 得 
到 了 下 面 的 重 估计 方程 














(601) = paEhww to = bi(SN + mymN)pn 00 


推导 过 程 中 我 们 使 用 了 公式 (10.156) 。 

让 我 们 总 结 一 下 寻找 变 分 后 验 概 率 分 布 的 EM 算法 。 首 先 ， 我 们 初始 化 变 分 参数 。 在 E 步 
又 中 ， 我 们 计算 由 公式 (10.156) 给 出 的 w 上 的 后 验 概率 分 布 ， 其 中 均值 和 协 方差 分 别 由 公 
式 (10.157) 和 公式 (10.158) 定义 。 在 M 步 又 中 ， 我 们 使 用 这 个 变 分 后 验 概率 ， 计 算 由 公式 
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图 10.13: logistic 回 归 的 贝 叶 斯 方法 的 例子 。 数 据 集 是 一 个 简单 的 线性 可 分 的 数据 集 。 左 图 给 出 了 使 用 变 
分 推断 的 方法 得 到 的 预测 分 布 。 我 们 看 到 决策 边界 大 致 位 于 数据 点 的 聚 类 的 中 间 位 置 ， 并 且 预 测 分 布 的 
轮廓 线 在 远离 数据 点 的 位 置 发 生 分 又 ， 这 反映 出 了 在 这 些 区 域 进 行 分 类 的 不 确定 性 。 右 图 给 出 了 对 应 于 
从 后 验 概率 分 布 p(w | 菇 中 抽取 的 参数 凤 的 五 个 样本 点 的 决策 边界 。 





(10.163) 给 出 的 一 个 新 的 E 值 。 不 断 重复 E 步 骤 和 M 步 怠 ， 直 到 满足 一 个 适当 的 收敛 准则 ， 这 在 
实际 应 用 中 通常 只 需要 几 步 欠 代 。 

我 们 介绍 另 一 种 得 到 & 的 重 估计 方程 的 方法 。 我 们 注意 到 ， 在 下 界 C(6) 的 定义 〈10.159) 中 
的 关于 w 的 积分 中 ， 被 积 函数 的 形式 类 似 于 高 斯 分 布 ， 因 此 积分 可 以 解析 地 计算 。 计 算出 这 个 
积分 之 后 ， 我 们 可 以 关于 & 进 行 求 导 。 可 以 证 明 ， 这 种 方法 得 到 的 重 估计 方程 与 之 前 用 EM 方法 
得 到 的 方程 (10.163) 完全 相同 。 

正如 我 们 已 经 强调 过 的 那样 ， 在 变 分 方法 的 应 用 中 ， 能 够 计算 出 由 公式 (10.159) 给 出 的 下 
界 L(é&) 是 很 有 用 的 。 我 们 注意 到 p(w) 是 一 个 高 斯 分 布 ，h(w,é&) 是 ww 的 二 次 函数 的 指数 形式 ， 从 
而 我 们 可 以 解析 地 计算 w 上 的 积分 。 因 此 ， 通 过 配 平 方 的 方法 ， 然 后 使 用 高 斯 分 布 的 归 一 化 系 
数 的 标准 结果 ， 我 们 可 以 得 到 解 的 精确 形式 如 下 








区 | (10.164) 
+ 5 {nee) - 36 + ME] 
n=1 


变 分 框架 也 可 以 应 用 于 数据 顺序 到 达 的 情形 (Jaakkla and Jordan, 2000) 。 在 这 种 情况 下 ， 
我 们 保持 w 上 的 一 个 高 斯 后 验 概率 分 布 ， 它 使 用 先 验 概率 分 布 p(w) 进 行 初始 化 。 随 着 每 个 数据 
点 的 到 达 ， 使 用 界限 (10.151) ， 然 后 归 一 化 ， 我 们 就 可 以 对 后 验 概率 进行 更 新 ， 得 到 一 个 更 新 
后 的 后 验 概率 分 布 。 

通过 对 后 验 概率 分 布 进行 积分 ， 我 们 可 以 得 到 预测 分 布 ， 它 的 形式 与 45.2 节 讨论 的 拉 普 拉 斯 
近似 的 形式 相同 。 图 10.13 给 出 了 人 工 生成 数据 集 的 变 分 预测 分 布 。 这 个 例子 为 7.1 节 讨论 的 “大 
边缘 "的 概念 提供 了 一 些 有 趣 的 认识 。 大 边缘 ”的 概念 与 贝 叶 斯 的 解 有 着 定性 的 相似 的 行为 。 


10.6.3 超 参数 的 推 斯 


目前 为 止 ， 我 们 将 先 验 概 率 分 布 的 超 参 数 a 看 成 一 个 已 知 参 数 。 我 们 现在 将 贝 叶 斯 logistic 回 
归 模 型 进行 推广 ， 使 得 这 个 参数 的 值 可 以 从 数据 集中 推断 出 来 。 这 可 以 通过 将 全 局 变 分 近似 
和 局 部 变 分 近似 结合 到 一 个 框架 中 的 方式 完成 ， 从 而 在 每 个 阶段 都 保留 边缘 似 然 函数 的 下 
界 。Bishop and Svenén (2003) 在 研究 专家 模型 的 层次 混合 的 贝 叶 斯 方法 中 ， 采 用 了 这 样 一 种 
组 合 的 方法 。 

特别 地 ， 我 们 再 次 考虑 一 个 简单 的 各 向 同性 的 高 斯 先 验 概 率 分 布 ， 形 式 为 


p(w | oa) =N(w |0,a 7) (10.165) 
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我 们 的 分 析 可 以 推广 到 更 一 般 的 高 斯 先 验 分 布 中 ， 例 如 ， 如 果 我 们 希望 为 参数 ww; 的 不 同 子 集 关 
联 一 个 不 同 的 超 参数 ， 那 么 我 们 就 可 以 将 我 们 的 分 析 进 行 推广 。 与 之 前 一 样 ， 我 们 考虑 a 上 的 
共 斩 超 先 验 ， 这 是 一 个 Gamma 分 布 


p(a) = Gam(a | ao, 50) (10.160) 


它 由 常数 ao 和 bo 控制 。 
这 个 模型 的 边缘 似 然 函数 现在 的 形式 为 


p(t) = Jon dwda (10.167) 


其 中 ， 联 合 概率 分 布 为 
p(w, oa,t) = p(t | w)p(w | a)p(a) (10.168) 


我 们 现在 无 法 直接 计算 关于 w 和 a 的 积分 。 我 们 会 在 同一 个 模型 中 使 用 全 局 的 变 分 方法 和 局 部 的 
变 分 方法 来 解决 这 个 问题 。 

首先 ， 我 们 引入 一 个 变 分 分 布 g(ao, a) ， 然 后 应 用 公式 〈10.2) 给 出 的 分 解 方式 。 在 这 种 情况 
下 ， 它 的 形式 为 





Inp(t) = Cd) + KL(g || D) (10.169) 

其 中 ,下 界 L(q) 和 Kullback-Leibler 散 度 KL(g || p) 的 定义 为 
L(g) = J q(w, a) ln (E> dw da (10.170) 
KL(g||p)=— WH q(w,a) ln {| dw da (10.171) 





现在 ， 由 于 似 然 因 子 ptt | 刀 ) 的 形式 ， 下 界 C(g) 仍 然 无 法 求解 。 于 是 ， 与 之 前 一 样 ， 我 们 对 
每 个 logistic sigmoid 因 子 应 用 一 个 局 部 的 变 分 界限 。 这 使 得 我 们 可 以 使 用 不 等 式 (10.152) ,得 
到 L(gq) 的 下 界 ， 这 个 下 界 也 是 对 数 似 然 通 数 的 一 个 下 界 。 


Inp(t) > £(g) > L(gq,é&) 
Ww Ww | op(a 10.172 
= {foin{ pt ape)) ow oo (10172 


q(w, a) 








接 下 来 我 们 假设 变 分 分 布 可 以 在 参数 和 超 参 数 之 间 进 行 分 解 ， 即 
q(w, a) = q(w)a(a) (10.173) 


有 了 这 种 分 解 ， 我 们 可 以 使 用 公式 (10.9) 给 出 的 一 般 结 果 ， 得 到 最 优 因子 的 表达 式 。 首 先 考虑 
概率 分 布 d(w)。 委 弃 与 w 无 关 的 项 ， 我 们 有 


ln gq(w) = Ealin{h(w, é)p(w | o)p(o)) + 常数 
二 lnh(w,é) +Ealinp(w | o)] 十 常数 


我 们 现在 使 用 公式 (10.153) 消去 Inh(w,é&)， 使 用 公式 〈10.165) 消去 Inp(w | a)， 有 






































Elal 


nglw) 





N 
wwt DD {Dw En) Ew + 各 
n=1 


我 们 看 到 这 是 ww 的 一 个 二 次 函数 ， 因 此 gq(w) 的 解 是 高 斯 分 布 。 使 用 通常 的 配 平方 方法 ,我 们 有 


dw) = N(w | jn, EN) (10.174) 
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其 中 我 们 定义 了 














N 
BH NSS, (we 一 3) pn (10.175) 
n=1 
N 
EN = Elall+2 Mtén) bn,pL (10.170) 
n=1 


类 似 地 ， 因 子 q(a) 的 最 优 解 为 
Ind(a) = Ewlinp(w | oj] 十 np(a) 十 常数 


使 用 公式 (10.165) 消去 Inp(w | a)， 使 用 公式 (10.166) 消去 In p(a) ， 我 们 有 























M ey 
Ing(a) = Ina -5Elw iw] + (Qo 一 1)lna 一 boa + 常数 





我 们 看 到 这 是 一 个 Gamma 分 布 的 对 数 ， 因 此 我 们 有 








1 
d(a) = Gam(a | an,bN) = aty oN le bNe (10.177) 
T(an) 
其 中 M 
QN 一 Q0 十 (10.178) 
1 T 
bN 一 bo 十 加 Ba lw wl (10.179) 











我 们 还 需要 最 优化 变 分 参数 6 ， 这 也 可 以 通过 最 大 化 下 界 L(g,&) 的 方式 得 到 。 上 略 去 与 8 无 关 
的 项 ， 对 a 积分 ,我们 有 


ba) = falew) in hw,€) dow + 常数 (10.180) 


注意 ， 它 的 形式 与 公式 (10.160) 的 形式 完全 相同 ， 因 此 我 们 可 以 使 用 我 们 之 前 的 结果 
(10.163) ， 它 可 以 通过 直接 对 边缘 似 然 浮 数 的 最 优化 得 到 ， 从 而 重 估 计 方 程 的 形式 为 


(上 新 )2 = GT BN + nud) gp, (10.181) 


我 们 已 经 得 到 了 三 个 量 q(w),g(a) 和 & 的 重 估计 方程 ， 因 此 在 进行 合适 的 最 优化 之 后 ， 我 们 可 
以 在 这 些 量 之 间 进行 循环 ， 每 次 都 对 各 个 量 进行 更 新 。 所 要 求解 的 各 阶 矩 为 























lol = 3 (10.182) 
Elww’ | = EN 十 ANA (10.183) 











10.7 期望 传播 


在 本 章 的 最 后 一 上 节 ， 我 们 讨论 确定 性 近似 推断 的 另 一 种 形式 ， 被 称 为 期 望 传播 (expectation 
propagation) ， 或 者 EP (Minka, 2001a; Minka, 2001b) 。 与 目前 为 止 讨论 的 变 分 贝 叶 斯 方法 相 
同 ， 这 种 方法 也 基于 对 Kullback-Leibler 散 度 的 最 小 化 ， 但 是 现在 形式 相反 ， 从 而 得 到 了 性 质 相 
当 不 同 的 近似 结果 。 

先 考 虑 关于 9(z) 最 小 化 KL( | 9) 的 问题 ， 其 中 p(z) 是 一 个 固定 的 概率 分 布 ，q(z) 是 指数 族 分 
布 的 一 个 成 员 ， 因 此 根据 公式 (2.194) ， 可 以 写成 


aq(z) = h(z)g(n) exp{m (2)} (0.18 
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作为 n 的 一 个 函数 ，Kullback-Leibler 散 度 变 成 了 
KL(p | 9) = 一 Ing(n) 一 0 Ep(z)[u(z)] 十 常数 (10.185) 


其 中 常数 项 与 自然 参数 7 无 关 。 我 们 可 以 通过 令 关 于 7 的 梯度 等 于 零 的 方式 ， 在 这 个 概率 分 布 族 
中 最 小 化 KL(p || g) ， 结 果 为 

















-Ving(m) = Es)lu(z)] (10.180) 


然而 ， 我 们 已 经 看 到 ， 在 公式 (2.226) 中 ,ln g(n) 的 负 梯 度 有 概率 分 布 4(z) 下 u(z) 的 期 望 给 
定 。 令 这 两 个 结果 相等 ， 我 们 有 



































Ey(z) [uw(z)] 二 B,Cz) [u(z)] (10.187) 


我 们 看 到 ， 最 优 解 仅 仅 对 应 于 将 充分 统计 量 的 期 望 进 行 匹 配 。 因 此 ,， 例如， 如果 g(z) 是 
一 个 高 斯 分 布 W(z | 4,)， 那 么 我 们 通过 令 gq(z) 的 均值 1 等 于 分 布 p(z) 的 均值 并 且 令 协 方 
差 习 等 于 p(z) 的 协 方 差 ， 即 可 最 小 化 Kullback-Leibler 散 度 。 这 有 时 被 称 为 矩 匹 配 (moment 
matching) 。 图 10.3(@) 给 出 了 这 个 的 一 个 例子 。 

现在 ， 让 我 们 利用 这 个 结果 ， 得 到 近似 推断 的 一 个 实用 的 算法 。 对 于 许多 概率 模型 来 说 ， 数 
据 D 和 隐 舍 变量 (包括 参数 ) 0 的 联合 概率 分 布 由 一 组 因子 的 乘积 组 成 ， 形 式 为 


»(D,0) = |[#:(0) (10.188) 








这 个 结果 可 能 由 独立 同 分 布 的 数据 的 模型 产生 ， 其 中 对 于 每 个 数据 点 zw， 都 有 一 个 因 
子 fn(0) = p(zn | 9)， 且 因子 f0(9) = p(9) 对 应 于 先 验 概率 分 布 。 更 一 般 地 ， 它 也 适用 于 任何 由 
有 向 图 定义 的 模型 ， 其 中 每 个 因子 是 一 个 条 件 概率 分 布 ， 对 应 于 一 个 结 点 。 也 适用 于 无 向 图 ， 
其 中 每 个 因子 是 一 个 团 块 势 函数 。 我 们 感 兴趣 的 是 计算 后 验 概率 分 布 p(6 | DP) 用 于 进行 预测 ， 以 
及 计算 模型 证 据 p(D) 用 于 进行 模型 比较 。 根 据 公 式 (10.188) ， 后 验 概率 分 布 为 


p(017D)= -而 lI f(0) (10.189) 


模型 证 据 为 
p(D) = / [[#:(0) de (10.190) 


这 里 ， 我 们 考虑 连续 变量 ， 但 是 下 面 的 讨论 同样 适用 于 离散 变量 ， 只 需 把 积分 替换 为 求 和 即 
可 。 我 们 假设 9 上 的 边缘 概率 分 布 以 及 关于 用 来 进行 预测 的 后 验 概率 分 布 的 边缘 分 布 都 是 无 法 计 
算 的 ， 从 而 需要 某 种 形式 的 近似 。 

期 望 传播 基于 后 验 概 率 分 布 的 近似 ， 这 个 近似 也 由 一 组 因子 的 乘积 给 出 ， 即 


q(0) = #1 #0) (10.191) 


其 中 ， 近 似 中 的 每 个 因子 (9) 对 应 于 真实 后 验 概率 分 布 (10.189) 中 的 一 个 因子 所 (9)， 
子 记 是 归 一 化 常数 ， 用 来 确保 公式 (10.191) 的 左 侧 的 积分 等 于 1。 为 了 得 到 一 个 实用 的 算法 ， 
我 们 需要 对 因子 fi(9) 进 行 一 定 的 限制 ,特别 地 ， 我 们 会 假定 因子 来 自 指数 族 分 布 。 于 是 ， 因 子 
的 乘积 也 是 指数 族 分 布 ， 因 此 可 以 用 充分 统计 量 的 有 限 集合 来 描述 。 例 如 ， 如 果 每 个 (0) 是 一 
个 高 斯 分 布 ， 那 么 整体 的 近似 g(6) 也 是 高 斯 分 布 。 

理想 情况 下 ， 我 们 通过 最 小 化 真实 后 验 概率 分 布 与 近似 分 布 之 间 的 Kullback-Leibler 散 度 的 方 
式 来 确定 (0)， 这 个 散 度 为 








1 1 ~ 
KL(p || 9) = KL 高 本 Ag 网 IT (10.192) 
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注意 与 变 分 推断 中 使 用 的 KL 散 度 相 比 ， 这 个 KL 的 散 度 恰 好 相反 。 通 常 这 个 最 小 化 是 无 法 进行 
的 ， 因 为 KL 散 度 涉及 到 关于 真实 概率 分 布 求 平均 。 作 为 一 个 粗略 的 近似 ， 我 们 反 过 来 最 小 化 对 
应 的 因子 对 (09) 和 fi(9) 之 间 的 KL 散 度 。 这 个 问题 容易 得 多 ， 并 且 具 有 算法 无 需 迭 代 的 优点 。 
然而 ， 由 于 每 个 因子 被 各 自 独 立地 进行 近似 ， 因 此 因子 的 乘积 的 近似 效果 可 能 很 差 。 

期 望 传播 通过 在 所 有 剩余 因子 的 环境 中 对 每 个 因子 进行 优化 ， 从 而 取得 了 一 个 效果 好 得 多 的 
近似 。 首 先 ， 这 种 方法 初始 化 因子 fi(0)， 然 后 在 因子 之 间 进 行 循 环 ， 每 次 优化 一 个 因子 。 这 种 
方法 的 思想 类 似 于 之 前 讨论 的 变 分 贝 叶 斯 框架 的 因子 更 近 过 程 。 假 设 我 们 希望 优化 因子 f;(9)。 
首先 ， 我 们 将 这 个 因子 从 乘积 中 移 除 ， 得 到 TI;jy; (0)。 从 概念 上 讲 ， 我 们 要 确定 因子 (9) 的 
一 个 修正 形式 ， 使 得 乘积 


q 新 (9) x 方 (9) [Lf(0) (10.193) 
二 和 
可 能 地 搂 近 | 
方 (9) ] [ #:(0) (10.194) 
i 


其 中 我 们 保持 所 有 i 取 j 的 因子 及 (9) 固定 。 这 保证 了 近似 在 由 剩余 的 因子 定义 的 后 验 概率 较 高 的 
区 域 最 精确 。 后 面 ， 当 我 们 将 EP 应 用 于 聚 类 问题 的 时 候 ， 我 们 会 看 到 这 种 效果 的 一 个 例子 。 
为 了 完成 这 一 点 ,我们 首先 从 当前 的 对 后 验 概率 的 近似 中 移 除 因子 方 (9)， 方 法 是 定义 下 面 的 未 
归 一 化 的 分 布 





vrgy _ 29) (10.195) 
q™ (0) FO) 
注意 ， 我 们 反 过 来 从 i 了 j 的 因子 的 乘积 中 求 出 gi(9)， 虽 然 在 实际 应 用 中 ， 除 法 通常 更 容易 。 
它 现在 与 因子 方 (9) 结 合 ， 得 到 概率 分 布 


了 万 (9)qVv(g) (10.190) 
Zi 
其 中 2j; 是 归 一 化 常数 ， 形 式 为 
2; = / fj(0)q\i(0) dg (10.197) 
我 们 现在 通过 最 小 化 Kullback-Leibler 散 度 
KL (2 人 mg (10.198) 
5 








来 确定 一 个 修正 的 因子 方 (6)。 这 很 容易 求解 ， 因 为 近似 分 布 q 新 (8) 来 自 指 数 族 分 布 ， 因 此 我 们 
可 以 使 用 结果 (10.187) ， 这 个 公式 告诉 我 们 ， 参 数 q 新 (9) 可 以 通过 匹配 公式 (10.196) 的 对 应 
矩 的 充分 统计 量 的 期 望 的 方式 获得 。 我 们 会 假设 这 是 一 个 可 以 计算 的 操作 。 例 如 ， 如 果 我 们 
将 q(0) 选 择 为 高 斯 概率 分 布 N(9 | 1, 允 )， 那 么 被 设置 为 (未 归 一 化 的 ) 分 布 方 (9)qov(9) 的 均 
值 ， 允 被 设置 为 它 的 方差 。 更 一 般 地 ， 得 到 指数 族 分 布 的 任意 成 员 的 所 需 的 分 布 是 很 容易 的 ， 
只 要 它 能 够 被 归 一 化 即 可 ， 因 为 充分 统计 量 的 期 望 可 以 与 归 一 化 系数 的 导数 相关 联 ， 正 如 公式 
(2.226) 所 述 。 图 10.14 说 明了 EP 近 似 的 过 程 。 

根据 公式 (10.193) ， 我 们 看 到 修正 的 因子 方 (9) 可 以 按照 下 面 的 方法 得 到 : 取 q 新 (9)， 然 后 
除 以 剩余 的 因子 ， 即 | 
PD 
”gy(0) 


其 中 我 们 使 用 了 公式 (10.195) 。 系 数 开 通过 下 面 的 方式 确定 : 将 等 式 (10.199) 的 两 侧 乘 
以 qi(9)， 然 后 积分 ， 可 得 


(10.199) 





K= / fy(0)q\i(0) db (10.200) 
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图 10.14: 用 高 斯 分 布 进行 期 望 传播 近似 的 说 明 ， 使 用 了 之 前 在 图 414 和 图 10.1 中 讨论 的 例子 。 左 图 给 出 了 
原始 的 概率 分 布 (黄色 ) 以 及 拉 普 拉 斯 近似 〈 红 色 ) 、 全 局 变 分 近似 (绿色 ) 以 及 EP 近 似 〈 蓝 色 ) ， 碳 
图 给 出 了 对 应 的 概率 分 布 的 负 对 数 。 注 意 ，EP 分 布 比 变 分 推断 得 到 的 分 布 更 宽 ， 这 是 由 于 不 同形 式 
的 KL 散 度 造成 的 结果 。 


其 中 我 们 已 经 使 用 了 g 蕴 (0) 已 经 归 一 化 这 一 事实 。 于 是 ，K 的 值 可 以 通过 匹配 零 阶 矩 的 方式 得 到 
/ fj(0)qV (0) dg = | fj(0)q\i(0) do (10.201) 


将 这 个 式 子 与 公式 10.197) 结合 ， 我 们 看 到 KK = 2;， 因 此 可 以 通过 计算 公式 (10.197) 中 的 积 
分 的 方式 得 到 。 

在 实际 应 用 中 ， 在 因子 集合 中 会 进行 多 次 送 代 ， 每 次 都 修正 所 有 的 因子 。 之 后 ， 使 用 公式 
(10.191) 可 以 得 到 后 验 概率 分 布 p(9 | D) 的 近似 ， 模 型 证 据 p(D) 可 以 使 用 公式 (10.190) 来 近 
似 ， 其 中 因子 所 (9) 被 蔡 换 为 它们 的 近似 户 (9)。 

我 们 给 定 观 测 数据 集 D 和 随机 变量 9 上 的 联合 概率 分 布 ， 用 因子 的 乘积 的 形式 表示 


»(D,0) = [|[ (9) (10.202) 
我 们 希望 使 用 下 面 形式 的 分 布 
a(0)= z11 (0) (10.203) 


来 近似 后 验 概率 分 布 p(0 | D)。 我 们 也 希望 近似 模型 证 据 p(D)。 
。 初 始 化 所 有 的 近似 因子 廊 (6)。 








。 通 过 设置 
4(9) x [[ #(0) (10.204) 
初始 化 后 验 近 似 。 
。 直 到 收敛 : 
选择 一 个 因子 方 (9) 进 行 优化 。 
- 通过 下 面 的 除法 区 
V(9) = < (10.205) 
q™ (0) FO) 
从 后 验 概率 分 布 中 移 除 fj;(0)。 
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-5 0 0 5 z 10 
图 10.15: 维度 为 D = 1 的 数据 空间 中 的 聚 类 问题 的 说 明 。 训 练 数 据点 〈 用 又 号 表示 ) ， 从 两 个 高 斯 分 布 混 
合 而 成 的 分 布 中 抽出 ， 高 斯 分 量 用 红色 和 蓝 色 表 示 。 我 们 的 目标 是 从 观测 数据 中 推断 绿色 高 斯 分 布 的 均 
值 。 


- 计算 新 的 后 验 概率 分 布 ， 方 法 为 : 令 q 妆 (9) 的 充分 统计 量 (和 矩 ) 等 于 9v(6) 亡 (9) 的 充 
分 统计 量 ( 矩 ) ， 包 括 计 算 归 一 化 系数 





2; = / q\i(0)f;(0) db (10.200) 
- 计算 和 存储 新 的 因子 
(0) = ,0 0) (10.207) 
”qv(0) 
。 计算 模型 证 据 的 近似 
p(D) ~ / [[#(0) de (10.208) 


EP 的 一 个 特别 的 情况 ， 被 称 为 假定 密度 过 滤 (assumed density filtering, ADF) 或 者 
和 矩 匹 配 (moment matching) (MayBeck, 1982; Lauritzen, 1992; Boyen and Koller, 1998; Opper and 
Winther, 1999) ， 可 以 这 样 得 到 : 对 除了 第 一 个 因子 以 外 的 所 有 近似 因子 初始 化 为 1， 然 后 在 所 
有 因子 之 间 进 行 一 次 近代， 每 次 更 新 因子 中 的 每 一 个 。 假 定 密度 过 滤 对 于 在 线 学 习 很 适用 ， 其 
中 数据 点 顺序 地 到 达 ， 我 们 需要 从 每 个 数据 点 中 进行 学 习 ， 然 后 在 考虑 下 一 个 数据 点 之 间 将 其 
丢弃 。 然 而 ， 在 批 处 理 的 设 定 中 ， 我 们 有 机 会 多 次 重新 适用 数据 点 来 得 到 更 高 的 精度 ， 并 且 这 
正 是 期 望 传播 所 利用 的 思想 。 此 外 ， 如 果 我 们 将 ADF 应 用 于 批量 的 数据 ， 结 果 会 依赖 于 数据 点 
的 处 理 顺 序 ， 这 不 是 我 们 想 要 的 ， 而 EP 可 以 克服 这 个 缺点 。 

期 望 传播 的 一 个 缺点 是 ， 它 不 保证 迭代 会 收敛 。 人 然而， 对 于 指数 族 分 布 的 近似 4q(0)， 如 果 达 
代 确 实 收 人 钱 ， 那 么 求 得 的 解 是 特定 的 势 函 数 的 驻 点 (Minka, 2001a) ,虽然 每 轮 EP 迭 代 未 必 减 
小 势 函 数 的 值 。 这 与 变 分 贝 叶 斯 相反 。 变 分 贝 叶 斯 中 ， 每 轮 迭 代 保 证 不 会 减 小 界限 。 直 接 优 
化 EP 的 代价 函数 是 可 能 的 ， 这 种 情况 下 ， 它 保证 收敛 ， 虽然 会 导致 算法 更 慢 ， 实 现 起 来 更 复 


杂 。 


变 分 贝 叶 斯 和 EP 的 男 一 个 区 别 是 来 自 于 两 个 算法 所 最 小 化 的 KL 散 度 的 形式 ， 因 为 前 者 最 小 
化 KL(g | p)， 而 后 者 最 小 化 KL(p | 9)。 正 如 我 们 在 图 10.3 中 看 到 的 那样 ， 对 于 多 峰 的 概率 分 
布 p(0)， 最 小 化 KL(p || 9) 会 产生 较 差 的 近似 。 特 别 地 ， 如 果 将 EP 应 用 于 混合 概率 分 布 ， 那么 得 
到 的 结果 没有 意义 ， 因 为 得 到 的 近似 试图 覆盖 后 验 概率 分 布 的 所 有 峰值 。 相 反 ， 在 logistic 类 型 
的 模型 中 ，EP 通 常 要 比 局 部 变 分 方法 和 拉 普 拉 斯 近似 方法 的 表现 更 好 (Kuss and Rasmussen， 
2006) 。 





10.7.1 例子 : 聚 类 问题 
遵从 Minka (2001b) 的 做 法 ， 我 们 使 用 一 个 简单 的 例子 来 说 明 EP 算 法 ， 其 中 我 们 的 目标 是 
在 给 定 服从 那个 分 布 的 一 组 观测 的 情况 下 ， 推 断 变量 z 上 的 多 元 高 斯 分 布 的 均值 0。 为 了 让 问题 
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更 加 有 趣 ，， 观 测 位 于 一 个 背景 聚 类 中 ， 它 本 身 也 是 一 个 高 斯 分 布 ， 如 图 10.15 所 示 。 于 是 ， 观 
测 值 z 的 概率 分 布 是 一 个 混合 高 斯 分 布 ， 形 式 为 





p(z|10)= (1—wN(z|0,T)+wN (zr|0,aT) (10.209) 
其 中 ,， 忆 是 背景 聚 类 的 比重 ， 假 设 是 已 知 的 。0 上 的 先 验 概率 分 布 是 高 斯 分 布 ， 形 式 为 
p(0) = N(0 | 0,07) (10.210) 


Minka (2001a) 选择 参数 的 值 为 a = 10,b = 100,w = 0.5。N 次 观测 D = {zx1,...,zN} 和 0 的 联 
合 概率 分 布 为 
7(D,0) = p(0) [ [ p(n 10) (10.211) 
n=1 
因此 后 验 概率 分 布 由 2 六 个 高 斯 分 布 混合 而 成 。 从 而 精确 解决 这 个 问题 的 计算 代价 会 随 着 数据 集 
的 规模 指数 增长 ， 因 此 对 于 大 的 NN 值 ， 精 确 求解 是 不 可 行 的 。 
为 了 将 EP 应 用 于 聚 类 问题 ， 我 们 首先 看 出 ， 因 子 f0(9) = p(0) 且 fn(0) = p(zn | 0)。 接 下 
来 ,我们 从 指数 族 分 布 中 选择 一 个 近似 分 布 。 对 于 这 个 例子 ， 比 较 方 便 的 做 法 是 选择 一 个 球形 


高 斯 分 布 


q(0) = N(0 | m, v1) (10.212) 
于 是 ， 因 子 近似 会 取 指 数 -二 次 函数 的 形式 ， 即 
fn(0) = snN (0 | mn, vnT) (10.213) 


其 中 n = 1,...,N， 并 且 我 们 令 有 (9) 等 于 先 验 概率 分 布 p(0)。 注 意 ,， 使 用 N(9 | ,.) 不 表示 右 
侧 是 一 个 良好 定义 的 高 斯 概率 密度 (事实 上 ， 正 如 我 们 将 看 到 的 那样 ， 方 差 参数 wm 可 以 为 
负 ) ， 而 是 仅仅 是 一 个 方便 的 简化 记号 。 近 似 万 (9),n = 1,.….,N 可 以 被 初始 化 为 1， 对 应 
于 sn = (2ron)2,u 一 co 以 及 mn = 0， 其 中 DD 是 x 的 维度 ， 因 此 也 是 9 的 维度 。 公 式 (10.191) 
定义 的 初始 的 (0) 因 此 就 等 于 先 验 概率 分 布 。 

我 们 接 下 来 送 代 地 优化 因子 ， 方 法 是 每 次 取 一 个 因子 及 (9)， 然 后 使 用 公式 (10.205) 、 
(10.206) 和 (10.207) 。 注 意 ， 我们 不 需要 修改 0(9)， 因 为 EP 更 新 会 让 这 一 项 保持 不 变 。 这 
里 ， 我 们 给 出 结果 ， 让 读者 自己 来 填充 细节 。 

首先 ， 我 们 从 gq(9) 中 移 除 当前 的 估计 所 (0), 方法 是 使 用 公式 (10.205) 做 除法 ， 得 
到 g\"(9)， 它 的 均值 和 方差 为 


m= m+ wm — ma) (10.214) 
(AL =v lv! (10.215) 

接 下 来 ， 我 们 使 用 公式 (10.206) 计算 归 一 化 常数 ， 结 果 为 
Zn = (1 wNv | Mm, (v4)D +wN (rn | 0,aT) (10.210) 


类 似 地 ， 我 们 通过 寻找 q\”(9)f,(0) 的 均值 ， 计 算 q 妆 (9) 的 均值 和 方差 ， 结 果 为 


UN 








新 nj \n 
mi =m 十 Dr i (zn — mm”) (10.217) 
\n\2 \n\2 = N22 
新 _ Nm A (Ww ) zn -ml 10.218 
UV vU pn UN 下 1 | pn( n) Dv i 1)? ( ) 
其 中 ww 
pn 一 上 一 元 N(zn | 0, aT) (10.219) 
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图 10.16: 对 于 雌 类 问题 的 一 维 版 本 ， 具 体 因子 的 近似 的 例子 。 图 中 用 蓝 色 表示 f。(9)， 用 红色 表示 f,(0)， 


用 绿色 表示 q\"(0)。 注 意 q\”(9) 现 在 的 形式 控制 了 9 的 取 值 范围 ， 在 这 个 范围 上 ，f(9) 是 f(9) 的 一 个 很 好 
的 近似 。 


它 可 以 简单 地 表示 为 点 zn 不 在 聚 类 中 的 概率 。 然 后 ， 我 们 使 用 公式 (10.207) 计算 优化 因 
子 户 (9)， 它 的 参数 为 





vil 二 (o 新 ) 开 一 (uv (10.220) 
ma = m+ vn to VT) mm) (10.221) 
sn 一 An (10.222) 


(Qnrvn) SN (ma | ma (vn + oT) 
优化 过 程 不 断 重复 ， 直 到 满足 一 个 合适 的 终止 准则 ， 例 如 在 对 所 有 因子 进行 的 一 次 优化 迷 代 
中 ， 参 数值 的 最 大 改变 量 小 于 一 个 阀 值 。 最 后 ， 我 们 使 用 公式 (10.208) 来 计算 模型 证 据 的 近 
似 ， 结 果 为 








N 
; D 
p(D) ~ (2nv 新 ) 挟 exp (3) [I {sn(2ron)- 2} (10.223) 
n=1] 
其 中 

新 To 新 六 
> La >, Tn Tn (10.224) 

人 | Un, 





图 10.16 给 出 了 对 于 一 维 参数 空间 9 的 聚 类 问题 的 因子 近似 的 例子 。 注 意 ， 因 子 近似 可 以 有 无 穷 
大 的 或 者 负数 的 方差 参数 wm。 这 仅仅 对 应 于 曲线 向 上 弯曲 而 不 是 向 下 弯曲 的 情形 ， 并 且 只 
要 所 有 的 近似 后 验 概率 q(9) 有 正 的 方差 ， 这 种 情形 就 未 必 有 问题 。 图 10.17 对 比 了 在 肾 类 问题 
中 ，EP 的 表现 、 变 分 贝 叶 斯 (平均 场 理 论 ) 的 表现 以 及 拉 普 拉 斯 近似 的 表现 。 


10.7.2 图 的 期 望 传播 


目前 为 止 在 我 们 对 于 EP 的 一 般 的 讨论 中 ， 我 们 让 概率 分 布 p(9) 中 的 所 有 因子 fi(0) 是 9 的 全 部 
分 量 的 函数 ， 类 似 地 ， 对 于 近似 分 布 9(9) 的 近似 因子 了 (0) 的 情形 也 相同 。 我 们 现在 考虑 下 面 的 
情形 : 因子 只 依赖 于 变量 的 一 个 子 集 。 这 种 限制 可 以 很 方便 地 使 用 第 8 章 讨论 的 概率 图 模型 的 框 
架 来 表示 。 这 里 ， 我 们 使 用 因子 图 表示 ， 因 为 它 同时 包含 了 有 向 图 和 无 向 图 。 

我 们 会 把 注意 力 集中 于 近似 概率 分 布 完全 分 解 的 情形 ， 我 们 会 证 明 ， 在 这 种 情形 下 ， 期 望 传 
播 会 简化 为 循环 置信 传播 (Minka, 2001a) 。 首 先 ， 我 们 在 一 个 简单 的 例子 中 证 明 这 一 点 ， 然 后 
我 们 会 研究 一 般 的 情形 。 

首先 ， 回 忆 一 下 ， 根 据 公 式 (10.17) ， 如 果 我 们 关于 一 个 分 解 的 概率 分 布 % 来 最 小 
化 Kullback-Leibler 散 度 KL(p || gq)， 那 么 对 于 每 个 因子 ， 最 优 解 为 p 的 对 应 的 边缘 概率 分 布 。 

现在 ， 考 虑 图 10.18 左 侧 给 出 的 因子 图 。 我 们 之 前 在 加 和 -乘积 算法 中 介绍 过 这 张 图 。 联 合 概 








D(zZ) = falzx1, 72)fo(x2, 23)fe(x2, 7Z4) (10.225) 
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图 10.17: 期 望 传播 、 变 分 推断 和 拉 普 拉 斯 近似 在 聚 类 问题 上 的 对 比 。 左 图 给 出 了 预测 后 验 概率 分 布 的 均 
值 与 浮 点 运算 的 数量 的 关系 ， 右 图 给 出 了 对 应 的 模型 证 据 的 结果 。 


T1 LX2 ZL3 Tl1 7L2 T3 


. a CD 本 加 ) 
0 far fa2 fo fos 
fe2 


TA4 化 4 


图 10.18: 左 图 是 来 自 图 8.51 的 一 张 简单 的 因子 图 ， 为 了 方便 ， 这 里 重新 画 出 。 右 图 是 对 应 的 分 解 近似 。 


我 们 寻找 具有 相同 分 解 方式 的 一 个 近似 g(z)， 即 
d(z) cc faz1, za) 户 (zz3) 大 (zazd) (10.220) 
注意 ， 归 一 化 常数 被 省 略 ， 这 些 可 以 在 计算 的 最 后 使 用 局 部 归 一 化 的 方法 计算 出 来 ， 正 如 我 们 


在 置信 传播 中 经 常 做 的 那样 。 现 在 ， 假 设 我 们 将 注意 力 集中 于 近似 分 布 上 ， 其 中 因子 本 身 可 以 
关于 各 个 变量 进行 分 解 ， 即 








d(z) cc jui(zl)jaa(zz)joa(za)jis(zs)jco(za)jca(zd) (10.227) 
它 对 应 于 图 10.18 右 侧 的 因子 图 。 由 于 各 个 独立 的 因子 是 分 解 的 ， 因 此 整体 概率 分 布 d(z) 本 身 是 


完全 分 解 的 。 

现在 ， 我 们 使 用 这 个 完全 分 解 的 近似 ， 应 用 EP 算 法 。 假 设 我 们 已 经 初始 化 了 所 有 的 因子 ， 
并 且 我 们 选择 优化 因子 方 (za, zs) = joo(z2)jos(z3)。 首 先 ， 我 们 将 这 个 因子 从 近似 分 布 中 移 除 ， 
得 到 


qt (2) x filz1) fo2 (2) f(z2) foa(z4) (10.228) 
然后 我 们 乘 以 精确 因子 p(x2, z3)， 可 得 
p(T) = q(x)fo(z2, x3) 3 fai (x1) fa2 (22) fe2(T2) foa(z4) folr2, 13) (10.229) 


我 们 现在 通过 最 小 化 Kullback-Leibler 散 度 KL(P | q 新 ) 来 寻找 下 (z)。 这 个 结果 ， 正 如 之 前 注意 到 
的 那样 ， 是 q 新 (z) 组 成 了 因子 的 乘积 ， 每 个 变量 z; 对 应 一 个 因子 ， 其 中 每 个 因子 由 议 z) 的 对 应 的 
边缘 概率 分 布 组 成 。 这 四 个 边缘 概率 分 布 为 


D(z1) x fail(z1) (10.230) 
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P(x2) co fai(xr2) fe (22) >》 万 (za,z3) (10.231) 


Bzs) cc 》 { folz2, 23) fa2(12) fe2(22)) (10.232) 

Bra) x jea(za4) (10.233) 

q 新 可 以 通过 将 这 些 边 缘 概率 分 布 相 乘 的 方式 得 到 。 我 们 看 到 ， 当 我 们 更 新 万 (zz, 23) 时 ，g(z) 中 

唯一 改变 的 因子 是 涉及 到 访 中 的 变量 的 因子 ， 即 涉及 到 zz 和 zs 的 因子 。 为 了 得 到 优化 的 因 
子 有 (7z2,73) = jz(za)Joa(zs)， 我 们 将 9 提 (z) 除 以 ov%(z)， 结 果 为 


记 2(za) cx >》 万 (za,z3) (10.234) 





fos(z3) x > { folz2, 13) faa(22) fea(z2)} (10.233) 
这 些 与 使 用 置信 传播 得 到 的 信息 完全 相同 ， 其 中 从 变量 结 点 到 因子 结 点 的 信息 已 经 被 整合 到 从 
因子 结 点 到 变量 结 点 的 信息 当中 。 特 别 地 ，jfo2(z2) 对 应 于 由 因子 结 点 及 癌变 量 结 点 Zz2 发 送 的 信 
息 Ujp za(Z2)， 由 公式 (8.81) 给 出 。 类 似 地 ， 如 果 我 们 将 公式 (8.78) 代入 公式 (8.79) ,我 
们 得 到 了 公式 (10.235) ， 其 中 fo2(x2) 对 应 于 jy。 zo(T2)， 且 fc2(X2) 对 应 于 jz2(72)， 给 出 了 
信息 fo3(Z3)， 它 对 应 于 fxs(73)。 

这 个 结果 与 标准 的 置信 传播 稍微 有 些 不 同 ， 因 为 信息 同时 向 两 个 方向 传递 。 我 们 可 以 很 容易 
地 修改 EP 步 骤 ， 给 出 加 和 -乘积 算法 的 标准 形式 ， 修 改 方法 为 : 每 次 只 更 新 一 个 因子 ， 例 如 如 果 
我 们 只 优化 fo3(z3)， 那 么 根据 定义 ，foz(7z2) 不 变 ， 而 fo3(7z3) 的 优化 版 本 再 次 由 公式 (10.235) 
给 出 。 如 果 我 们 每 次 只 优化 一 项 ， 那 么 我 们 可 以 选择 我 们 所 希望 进行 的 优化 的 顺序 。 特 别 地 ， 
对 于 一 个 树 结 构 的 图 ， 我 们 可 以 遵循 两 遍 更 新 的 框架 ， 对 应 于 标准 的 置信 传播 方法 ， 它 会 产生 
对 变量 和 因子 的 边缘 概率 分 布 的 精确 的 推断 。 这 种 情况 下 ， 近 似 因 子 的 初始 化 不 再 重要 。 

现在 ， 让 我 们 考虑 一 个 一 般 的 因子 图 ， 它 对 应 于 下 面 的 概率 分 布 


2(0) = [| #:(0;) (10.230) 














其 中 0; 表 示 与 因子 fi; 关联 的 变量 的 子 集 。 我 们 使 用 一 个 完全 分 解 的 概率 分 布 来 近似 它 ， 形 式 为 
4(9) x [[ 1 fx(0x) (10.237) 
i 天 


其 中 04 对 应 于 一 个 单独 的 变量 结 点 。 假 设 我 们 希望 优化 特定 的 项 fj1(01)， 保 持 其 他 所 有 的 项 不 
变 。 首 先 ， 我 们 从 gq(0) 中 移 除 项 fj(0;)， 可 得 


qv (6) x [[ fix) (10.238) 
i¥j) k 
然后 乘 以 精确 因子 fj(0;)。 为 了 确定 优化 项 fj.(01)， 我 们 只 需 考 虑 对 1 的 函数 依赖 ， 因 此 我 们 只 
需 寻 找 
q\i(0)f;(0;) (10.239) 
对 应 的 边缘 概率 分 布 。 忽 略 一 个 可 以 做 乘法 的 常数 ， 这 涉及 到 对 记 (0;) 与 任意 来 自 0\(9) 中 的 属 
于 69j 中 任意 变量 的 函数 的 项 进行 相 乘 得 到 的 结果 求 边缘 概率 分 布 。 当 我 们 接 下 来 除 以 5(6) 时 ， 
对 应 于 i 去 7 的 其 他 因子 fi(0;) 的 项 会 在 分 子 和 分 母 之 间 消 去 。 因 此 我 们 有 


fi(01) x >: (O72 LL || fea(Om) (10.240) 

Om ZE0; km#l 
我 们 将 这 个 式 子 看 做 是 加 和 -乘积 规则 的 形式 ， 其 中 ， 从 变量 结 点 到 因子 结 点 的 信息 被 消除 ， 正 
如 图 8.50 中 给 出 的 例子 那样 。fjm(0m) 对 应 于 信息 1p;-;6,,(9m)， 其 中 因子 结 点 j 向 变量 结 点 m 发 
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送信 息 ， 并 且 公 式 (10.240) 中 的 在 x 上 的 乘积 作用 于 所 有 依赖 于 与 因子 fj(0;) 有 相同 变量 〈 除 





了 变量 91) 的 变量 0。 换 句 话说 ， 为 了 计算 来 自 一 个 因子 结 点 的 输出 信息 ， 我 们 对 所 有 来 自 其 
他 结 点 的 输入 信息 求 乘积 ， 乘 以 局 部 因子 ， 然 后 求 和 或 积分 。 


因此 ， 如 果 我 们 使 用 完全 分 解 的 近似 概率 分 布 ， 那 么 加 和 -乘积 算法 就 可 以 作为 期 望 传播 的 
一 个 具体 的 例子 。 这 表明 ， 更 加 灵活 的 近似 分 布 (对 应 于 部 分 连接 的 图 ) 可 以 得 到 更 高 的 准确 
率 。 男 一 种 推广 是 将 因子 fi(0;) 分 成 耕 干 组 ， 在 一 次 迭代 过 程 中 优化 组 内 的 全 部 因子 。 这 两 种 方 
法 都 可 以 产生 精度 的 提升 (Minka, 2001b) 。 通 常 ， 选 择 最 好 的 分 组 和 断 开 连接 的 方式 是 一 个 开 
放 的 问题 。 

我 们 已 经 看 到 了 变 分 信息 传递 和 期 望 传播 方法 对 Kullback-Leibler 散 度 的 两 种 不 同 的 形式 进行 
了 最 优化 。Minka (2005) 证 明 ， 一 大 类 信息 传递 方法 可 以 从 一 个 涉及 到 最 小 化 散 度 的 alpha 家 
族 的 成 员 的 通用 框架 中 推导 出 来 ， 其 中 ， 散 度 的 alpha 家 族 由 公式 (10.19) 给 出 。 这 些 信息 传递 
方法 包括 变 分 信息 传递 、 循 环 置 信 传 播 、 期 望 传播 ， 以 及 一 大 类 其 他 的 算法 ， 例 如 树 重 加 权 信 
息 传递 (tree-reweighted message passing) (Wainwright et al., 2005) 、 分 数 置信 传播 (fractional 
belief propagation) (Wiegerinck and Heskes, 2003) 以 及 强 EP (power EP) (Minka, 2004) ,篇 
幅 所 限 ， 我 们 不 会 在 这 里 介绍 这 些 算法 。 





10.8 ”练习 


(10.1) (*) 验证 ， 观 测 数据 的 对 数 边 缘分 布 Inp( 关 ) 可 以 被 分 解 为 公式 (10.2) 中 的 两 项 ， 
其 中 L(g) 由 公式 (10.3) 给 定 ，KL(d | p) 由 公式 (10.4) 给 定 。 

(10.2) (*) 使 用 性 质 EE[z1] = m1 和 EE[z2] = m2 求解 其 次 方程 (10.13) 和 “(10.15) ， 证 明 ， 
只 要 原始 概率 分 布 p(z) 非 奇异 ， 那 么 在 近似 分 布 中 ， 因 子 的 均值 为 E[z1] = ji 和 E[z2] = 12。 

(10.3) GY) 考虑 形 如 “(10.5) 的 分 解 的 变 分 分 布 q(Z)。 通 过 使 用 拉 格 朗 日 乘 数 法 ， 验 
证 Kullback-Leibler 散 度 KL(g || p) 关 于 一 个 因子 qi(2i) 的 最 小 化 (保持 其 他 所 有 因子 不 变 ) 会 产 
生 公式 (10.17) 给 出 的 解 。 

(10.4) ”(*) 假设 p(z) 是 某 个 国定 的 概率 分 布 ， 我 们 希望 使 用 一 个 高 斯 分 
布 g(z) = NM(z | 4, 允 ) 来 近似 它 。 通 过 写 出 高 斯 q(x) 的 情形 下 的 KL 散 度 KL(p || 9)， 然 后 求 微 
分 , 证明 ，KL(p | q) 关 于 凡 和 的 最 小 化 会 得 到 下 面 的 结果 : /等 于 z 在 p(z) 下 的 期 望 ， 忆 等 于 
协 方 差 。 

(10.5) (**) 考虑 一 个 模型 ， 其 中 所 有 隐 含 随机 变量 的 集合 (联合 起 来 记 作 2Z) 由 某 些 
潜在 变量 z 以 及 某 些 模型 参数 9 组 成 。 假 设 我 们 使 用 能 够 在 潜在 变量 和 参数 之 间 分 解 的 变 分 
分 布 ， 即 gq(z,0) = gz(z)qe(9)， 其 中 概率 分 布 gq6(9) 使 用 形式 为 99(9) = 6(9 一 00) 的 点 估计 ， 其 
中 go 是 自由 参数 的 一 个 响亮 。 证 明 ， 这 个 分 解 的 分 布 的 变 分 最 优化 等 价 于 EM 算法 ， 其 中 E 步 又 
对 9z(z) 进 行 最 优化 ，M 步 骤 对 0 关于 bo 的 完整 数据 对 数 后 验 概率 的 期 望 进行 最 大 化 。 

(10.6) ”GC*) 散 度 的 alpha 家 族 由 公式 〈10.19) 定义 。 证 明 Kullback-Leibler 散 度 KL(p || 9) 对 
应 于 a 一 1。 证 明 方 法 为 : 写 出 ps = exp(elnp) = 1 十 elnp 十 O(e?)， 然 后 取 e 一 0。 类 似 地 ,证 
明 KL(gq Pp) 对 应 于 a 一 一 1。 

(10.7) ”Gx*) 考虑 使 用 10.1.3 节 讨论 的 分 解 的 变 分 近似 来 推断 一 元 高 斯 分 布 的 均值 和 精度 的 
问题 。 证 明 ， 因 子 w(/0) 是 一 个 高 斯 分 布 ， 形 式 为 Wu | jn, 入 xr), 均值 和 方差 分 别 为 〈10.26) 
和 (10.27) 。 类 似 地 ， 证 明 因 子 qy(Y) 是 一 个 Gamma 分 布 ， 形 式 为 Gam(7 | aN,bN)， 参 数 由 
(10.29) 和 (10.30) 给 出 。 

(10.8) (*) 考虑 一 元 高 斯 分 布 的 精度 的 变 分 后 验 概率 分 布 ， 它 的 参数 由 (10.29) 和 
(10.30) 给 出 。 通 过 使 用 公式 (B.27) 和 (B.28) 给 出 的 Gamma 分 布 的 均值 和 方差 的 标准 结 
果 , 证 明 ， 如 果 我 们 令 N 一 co， 那么 这 个 变 分 后 验 分 布 的 均值 为 数据 的 方差 的 最 大 似 然 估计 的 
倒数 ,方差 趋 于 零 。 

(10.9) (CY) 通过 使 用 Gamma 分 布 的 均值 的 标准 结果 E[7] = 统 ， 以 及 (10.26) 、 
(10.27) 、 (10.29) 和 “(10.30) ， 推 导 一 元 高 斯 分 布 的 分 解 变 分 方法 的 期 望 精度 的 倒数 的 结果 
(10.33) 。 

(10.10) ”(*) 推导 变 分 推断 方法 中 用 于 寻找 模型 上 的 近似 后 验 概率 分 布 的 分 解 方式 
(10.34) 。 

(10.11) ”(**) 通过 使 用 拉 格 朗 日 乘 数 法 来 强制 满足 分 布 d(m) 上 的 归 一 化 限制 ,证明 下 界 
(10.35) 的 下 界 的 最 大 值 为 (10.36) 。 
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(10.12) CGC%) 从 联合 概率 分 布 (10.41) 开始 ， 应 用 一 般 的 结果 〈10.9) ， 证 明 ， 潜 在 变量 
上 的 高 斯 分 布 的 贝 叶 斯 混合 的 最 优 变 分 分 布 9*(2Z) 是 (10.48) 。 证 明 方 法 是 ， 验 证 课本 中 给 出 
的 步骤 。 

(10.13) ”GC%) 从 公式 (10.54) 开始 ， 推 导 高 斯 分 布 的 贝 叶 斯 混合 模型 中 ，jw 和 Axn 上 的 最 
优 变 分 后 验 概率 分 布 ， 从 而 验证 由 公式 (10.60) 和 “10.63) 给 出 的 这 个 分 布 的 参数 的 表达 式 。 

(10.14) (**) 使 用 概率 分 布 (10.59) ， 验 证 〈10.64) 的 结果 。 

(10.15) (*) 使 用 公式 (B.17) 的 结果 ,证 明 变 分 高 斯 混合 中 ， 混 合 系数 的 期 望 值 由 
(10.69) 给 出 。 

(10.16) ”GY*) 验证 公式 (10.70) 给 出 的 变 分 高 斯 混合 模型 的 下 界 的 前 两 项 的 结果 
(10.71) 和 (10.72) 。 

(10.17) ”C3*) 验证 公式 〈10.70) 给 出 的 变 分 高 斯 混合 模型 的 下 界 的 剩余 各 项 的 结果 
(10.73) 到 (10.77) 。 

(10.18) ”CGC%*) 本 练习 中 ， 我 们 通过 直接 对 下 界 求 微分 ， 推 导 高 斯 混合 模型 的 变 分 重 估 计 
方程 。 为 了 完成 这 件 事 ， 我 们 假设 变 分 分 布 具有 由 (10.42) 和 (10.55) 定义 的 分 解 方式 ， 因 子 
由 (10.48) 、 (10.57) 和 (10.59) 定义 。 将 这 些 代 入 (10.70) ， 从 而 得 到 了 下 界 关 于 变 分 分 布 
的 参数 的 函数 。 然 后 ， 通 过 关于 这 些 参数 最 大 化 下 界 ， 推 导 变 分 分 布 中 因子 的 重 估计 方程 ， 证 
明 ， 这 些 与 10.2.1 节 得 到 的 相同 。 

(10.19) ”Gx*) 推导 高 斯 模型 的 贝 叶 斯 混合 的 变 分 方法 的 预测 分 布 的 结果 (10.81) 。 

(10.20) ”(*) 本 练习 研究 当 数据 集 的 大 小 N 较 大 时 ， 高 斯 混合 模型 的 变 分 贝 叶 斯 解 ， 证 明 
它 简化 为 第 9 章 基于 EM 算法 推导 的 最 大 似 然 解 〈 与 我 们 的 预期 相符 ) 。 注 意 ， 附 录 B 中 的 结果 
可 以 用 来 帮助 解决 本 练习 。 首 先 ， 证明 精度 的 后 验 概率 分 布 9”(Ak) 在 最 大 似 然 解 周围 具有 尖 
峰 。 为 均值 的 后 验 概率 分 布 q* (yw. | Ax) 做 同样 的 事情 。 接 下 来 ， 考虑 混合 系数 的 后 验 概率 分 
布 e* (x)， 证 明 它 在 最 大 似 然 解 周围 也 具有 尖峰。 类 似 地 ， 证 明 对 于 大 的 NN 值 ，“ 责 任 " 等 于 对 应 
的 最 大 似 然 值 。 证 明 方 法 是 使 用 下 面 的 对 于 大 的 x 的 Digamma 函 数 的 渐 近 结果 。 


ee 0() (10.241) 











最 后 ， 通 过 使 用 公式 (10.80) ,证 明 对 于 大 的 VN， 预测 分 布 是 一 个 高 斯 混合 分 布 。 

(10.21) (*) 证 明 ， 在 具有 KK 个 分 量 的 混合 模型 中 ， 由 于 交换 对 称 性 而 产生 的 等 价 的 参数 
设置 的 数量 为 K!。 

(10.22) ”(*) 我 们 已 经 看 到 ， 高 斯 混合 模型 的 后 验 概率 分 布 的 每 个 峰值 都 是 K! 个 等 价 的 
峰值 中 的 一 个 。 假 设 运行 变 分 推断 算法 的 结果 是 一 个 近似 的 后 验 概 率 分 布 9， 它 位 于 这 些 峰值 中 
的 一 个 峰值 的 邻 域 内 。 然 后 ， 我 们 可 以 将 完整 的 后 验 概率 分 布 近似 为 K! 个 这 样 的 g 分 布 的 混 
合 ， 每 个 分 布 以 每 个 峰值 为 中 心 ， 具 有 相等 的 混合 系数 。 证 明 ， 如 果 我 们 假设 9 混合 分 布 的 分 量 
之 间 的 重 欠 可 以 忽略 ， 那 么 得 到 的 下 界 与 通过 添加 额外 的 ln 天 ! 项 得 到 的 单一 分 量 4 的 下 界 不 同 。 

(10.23) ”(**) 考虑 一 个 变 分 高 斯 模型 ， 其 中 混合 系数 {xp} 上 没有 先 验 分 布 。 相 反 ， 混 合 系 
数 被 当成 参数 ， 它 的 值 要 通过 最 大 化 对 数 边缘 似 然 函数 的 变 分 下 界 的 方式 求 出 。 证 明 ， 关 于 混 
合 系数 最 大 化 这 个 下 界 ， 使 用 拉 格 朗 日 乘 数 法 强制 满足 混合 系数 加 和 为 1 的 限制 ， 会 得 到 重 估计 
结果 (10.83) 。 注 意 ， 不 需要 考虑 下 界 中 的 所 有 项 ， 只 需 考 虑 下 界 与 {x} 的 依赖 关系 即 可 。 

(10.24) ”CG%*) 我 们 已 经 在 10.2 节 看 到 ， 高 斯 混合 模型 的 最 大 似 然 方 法 产生 的 奇异 性 不 会 出 
现在 贝 叶 斯 方法 中 。 讨 论 ， 如 果 贝 叶 斯 模型 使 用 最 大 后 验 (MAP) 估计 求解 ,是否 会 出 现 这 种 
奇异 性 。 

(10.25) ”CG%*) 10.2 节 讨论 的 高 斯 分 布 的 贝 叶 斯 混合 的 变 分 方法 使 用 了 对 后 验 概 率 分 布 的 一 
个 分 解 的 近似 (10.5) 。 正 如 我 们 在 10.2 市 看 到 的 那样 ， 分 解 假设 使 得 参数 空间 的 某 个 特定 的 方 
向 上 的 后 验 概 率 分 布 的 方差 被 低估 。 定 性 讨论 这 一 点 对 于 模型 证 据 的 变 分 近似 产生 的 效果 ， 以 
及 这 个 效果 随 着 混合 分 量 的 数量 如 何 变化 。 解 释 变 分 高 斯 混合 倾向 于 低估 最 优 分 量 数量 还 是 高 
佑 最 优 分 量 数量 。 

(10.26) Ge) 将 贝 叶 斯 线性 回归 的 变 分 方法 推广 ， 使 其 包含 8 上 的 Gamma 超 先 
验 Gam( | co, do)， 通 过 假设 形式 为 4(w)q(a)q(6) 的 可 分 解 的 变 分 概率 分 布 ， 变 分 地 求解 。 推 导 
变 分 分 布 中 三 个 因子 的 变 分 更 新 方程 ， 并且 求 出 预测 分 布下 界 的 一 个 表达 式 。 

(10.27) ”GC*) 通过 使 用 附录 B 中 给 定 的 公式 ,证明 线性 基隆 数 回归 模型 的 下 界 可 以 写成 
(10.107) 的 形式 ， 各 个 参数 由 (10.108) 到 (10.112) 定义 。 
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(10.28) (***) 将 10.2 节 介绍 的 高 斯 分 布 的 贝 叶 斯 混合 的 模型 重 写 为 指数 族 分 布 的 一 个 共 斩 
模型 ， 就 像 10.4 节 讨论 的 那样 。 从 而 ， 使 用 一 般 的 结果 (10.115) 和 (10.119) 推导 具体 的 结果 
(10.48) 、 (10.57) 和 (10.59) 。 

(10.29) (*) 通过 计算 二 阶 导 数 ， 证 明 函 数 /(z) = ln(z) 对 于 0 < x < co 是 凹 函数 。 确 定 由 
公式 (10.133) 定义 的 对 偶 函 数 g(7) 的 形式 ， 验 证 根据 (10.132) 关于 7 对 mz 一 g( 攻 进行 最 小 化 确 
实 恢复 出 了 函数 ln(z)。 

(10.30) (*) 通过 计算 二 阶 导 数 ， 证 明 对 数 logistic 函 数 /f(z) = 一 In(1 + e-?) 是 凹 函数 。 直 
接 使 用 对 数 logistic 函 数 在 点 z = 附近 的 一 阶 泰勒 展开 式 推导 变 分 上 界 (10.137) 。 

(10.31) ”(**) 通过 寻找 关于 xz 的 二 阶 导数 ， 证 明 函 数 fz) = 一 ln(e*/2 + e-z/2) 是 z 的 一 个 
叫 函 数 。 现 在 考虑 关于 变量 x? 的 二 阶 导数 ， 从 而 证 明 ， 它 是 2 的 凸 函 数 。 画 出 f(z) 关 于 z 和 zx? 的 
图 像 。 直 接 使 用 关于 x? 的 函数 (x) 在 以 &2 为 中 心 的 一 阶 泰勒 展开 式 ， 推 导 logistic sigmoid 函 数 的 
下 界 (10.144) 。 

(10.32) (x) 考虑 顺序 学 习 的 logistic 回 归 的 变 分 方法 ， 其 中 每 次 处 理 一 个 数据 点 ， 每 个 数 
据点 必须 在 下 一 个 数据 点 到 达 之 前 处 理 并 且 丢弃 。 证 明 ， 后 验 概率 分 布 的 高 斯 近似 可 以 通过 使 
用 下 界 (10.151) 来 维护 ， 其 中 概率 分 布 使 用 先 验 分 布 来 初始 化 ， 并 且 当 每 个 数据 点 被 整合 到 模 
型 中 之 后 ， 对 应 的 变 分 参数 6 被 最 优化 。 

(10.33) (9) 通过 将 (10.161) 定义 的 Q(&,& 中 ) 关 于 变 分 参数 6 求 微分 ,证明 贝 叶 
斯 logistic 回 归 模型 的 名 的 更 新 方程 由 〈10.163) 给 定 。 

(10.34) (x*) 本 练习 中 ， 我 们 通过 直接 对 (10.164) 给 出 的 下 界 进 行 最 大 化 ， 推 导 4.5 节 讨 
论 的 贝 叶 斯 logistic 回 归 模 型 的 变 分 参数 的 重 估计 方程 。 为 了 完成 这 一 点 ， 令 L(&) 关 于 的 导数 
等 于 零 ， 使 用 行列 式 的 对 数 的 导数 的 结果 (3.117) ， 以 及 定义 了 变 分 后 验 概率 分 布 q(w) 的 均值 
和 方差 的 表达 式 (10.157) 和 (10.158) 。 

(10.35) (4*) 推导 变 分 logistic 回 归 模 型 的 下 界 C(6) 的 结果 (10.164) 。 这 很 容易 完成 ， 方 
法 是 讲 高 斯 先 验 q(w) =N(w | mo, So) 以 及 似 然 函数 的 下 界 h(w,&) 的 表达 式 代 入 定义 了 L(é&) 的 
公式 (10.159) 的 积分 中 。 接 下 来 ， 将 指数 项 中 依赖 于 w 的 项 聚集 在 一 起 ， 配 平方 ， 得 到 高 斯 积 
分 ， 然 后 可 以 通过 使 用 多 元 高 斯 分 布 的 归 一 化 系数 的 标准 结果 来 计算 。 最 后 ， 取 对 数 ， 得 到 
(10.164) 。 

(10.36) ” (x) 考虑 10.7 节 讨论 的 ADF 近 似 方法 ,证明 ， 因 子 方 (9) 的 引入 产生 了 下 面 形式 的 
模型 证 据 更 新 








pi(D) ~ pj;-1(D)Z; (10.242) 


其 中 2Zj 是 公式 (10.197) 定义 的 归 一 化 常数 。 通 过 递归 地 使 用 这 个 结果 ， 用 po(D) = 1 进行 初始 
化 ， 推导 下 面 的 结果 
p(D) ~ [2; (10.243) 
5 


(1037) ”(*) 考虑 10.7 节 的 期 望 传播 算法 ， 假 设 定义 (10.188) 中 的 一 个 因子 f0(9) 与 近似 
分 布 0(0) 具 有 相同 的 指数 族 分 布 函数 形式 。 证 明 ， 如 果 因 子 fo(9) 被 初始 化 为 fo(0)， 那 么 优 
化 fo(0) 的 EP 更 新 会 保持 fo(9) 不 变 。 这 个 情况 通常 出 现在 一 个 因子 是 先 验 概率 p(9) 的 时 候 。 
此 我 们 看 到 先 验 因子 可 以 一 次 精确 地 被 整合 ， 无 需 优化 。 

(10.38) Ge) 本 练习 和 下 个 练习 中 ， 我 们 验证 期 望 传播 算法 应 用 于 聚 类 问题 的 结果 

(10.214) 到 (10.224) 。 首 先 ， 使 用 对 指数 项 配 平方 的 方法 分 离 出 均值 和 方差 的 方式 ， 通 过 使 
用 除法 公式 (10.205) ， 推 导出 表达 式 (10.214) 和 (〈10.215) 。 此 外 , 证明 对 于 聚 类 问题 ， 由 
公式 (10.206) 定义 的 归 一 化 常数 2 由 公式 (10.216) 给 出 。 使 用 一 般 的 结果 〈2.115) 即 可 完 
成 


(1039) (Ce) 证 明 应 用 于 聚 类 问题 的 EP 的 q 新 (9) 的 均值 和 方差 为 〈10.217) 和 
(10.218) 。 为 了 完成 这 件 事 ， 首 先 证 明 下 面 的 在 q 新 (9) 下 ，6 和 8667 的 期 望 的 结果 。 


E[b] = rm 十 UV 











In 2 (10.244) 





m\n 














E070] = 2(0")? Yu ln Zn +2El0T mY -jm "+vo"D (10.245) 


然后 使 用 公式 (10.216) 给 出 的 Zn 的 结果 。 接 下 来 ,通过 使 用 (10.207) 然后 对 指数 项 配 平方 的 
方法 ,证 明 结 果 (10.222) 和 “10.207) 。 最 后 ， 使 用 (10.208) 推导 结果 (10.223) 。 
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11 采样 方法 


对 于 大 多 数 实际 应 用 中 的 概率 模型 来 说 ， 精 确 推断 是 不 可 行 的 ， 因 此 我 们 不 得 不 借助 与 某 种 
形式 的 近似 。 在 第 10 章 中 ,我们 讨论 了 基于 确定 性 近似 的 推断 方法 ， 它 包括 诸如 变 分 贝 叶 斯 方 
法 以 及 期 望 传播 。 这 里 ,我 们 考虑 基于 数值 采样 的 近似 推断 方法 ， 也 被 称 为 蒙特 卡 罗 (Monte 
Carlo) 方法 。 

虽然 对 于 一 些 应 用 来 说 ， 我 们 感 兴趣 的 是 非 观测 变量 上 的 后 验 概率 分 布 本 身 ， 但 是 在 大 部 分 
情况 下 ， 后 验 概率 分 布 的 主要 用 途 是 计算 期 望 ， 例 如 在 做 预测 的 情形 下 就 是 这 样 。 因 此 ， 本 章 
中 ， 我 们 希望 解决 的 基本 的 问题 涉及 到 关于 一 个 概率 分 布 z(z) 寻 找 某 个 函数 帮 z) 的 期 望 。 这 
里 ，z 的 元 素 可 能 是 离散 变量 、 连 续 变 量 或 者 二 者 的 组 合 。 因 此 ， 在 连续 变量 的 情形 下 ， 我 们 和 希 
望 计 算 下 面 的 期 望 














N= | fp(2) dz a1.) 


在 离散 变量 的 情形 下 ， 积 分 被 替换 为 求 和 。 图 11.1 图 形 化 地 说 明了 单一 连续 变量 的 情形 。 我 们 假 
设 , 使 用 解析 的 方法 精确 地 求 出 这 种 期 望 是 十 分 复杂 的 。 

采样 方法 背后 的 一 般 思 想 是 得 到 从 概率 分 布 p(z) 中 独立 抽取 的 一 组 变量 z 中 ， 其 
中 7 = 1,..., 工 。 这 使 得 期 望 可 以 通过 有 限 和 的 方式 计算 ， 即 





<i 
了 二 >》 , f(z0) (11.2) 

















只 要 样本 z() 是 从 概率 分 布 p(z) 中 抽取 的 ， 那 么 E[ 月 = 也 [月 ， 因 此 估计 J 具有 正确 的 均值 。 估 
计 f 的 方差 为 




















var[f] = =EI(f — ELf]))] (11.3) 


它 是 函数 1(z) 在 概率 分 布 p(z) 下 的 方差 。 因 此 ， 值 得 强调 的 一 点 是 ， 估 计 的 精度 不 依赖 于 z 的 维 
度 ， 并 且 原 则 上 ， 对 于 数量 相对 较 少 的 样本 z() ， 可 能 会 达到 较 高 的 精度 。 在 实际 应 用 中 ，10 个 
或 者 20 个 独立 的 样本 就 能 够 以 足够 高 的 精度 对 期 望 做 出 估计 。 

然而 ， 问 题 在 于 样本 {z(O} 可 能 不 是 独立 的 ， 因 此 有 效 样本 大 小 可 能 远 远 小 于 表面 上 的 样本 
大 小 。 并 且 ， 回 到 图 11.1， 我 们 注意 到 如 果 f(z) 在 p(z) 较 大 的 区 域 中 的 值 较 小 ， 反 之 亦 然 ， 那 么 
期 望 可 能 由 小 概率 的 区 域 控制 ， 表 明 为 了 达到 足够 的 精度 ， 需 要 相对 较 大 的 样本 大 小 。 

对 于 许多 模型 来 说 ， 联 合 概率 分 布 p(z) 可 以 使 用 图 模型 很 容易 地 确定 。 在 没有 观测 变量 的 有 
向 图 的 情形 ， 从 联合 概率 分 布 中 采样 是 很 容易 的 (假设 可 以 从 每 个 节点 处 的 条 件 概 率 分 布 中 采 
0 
分 布 为 





AI 
z(z) = [ z(> | pa) (11.4) 
==] 


其 中 ，zi 是 与 结 点 i 关联 的 一 组 变量 ，pa; 表 示 与 结 点 i 的 父 结 点 关联 的 变量 的 集合 。 为 了 从 联合 
概率 分 布 中 得 到 一 个 样本 ， 我 们 按照 21,.…. ,zm 的 顺序 遍历 一 次 变量 集合 ， 这 些 变 量 是 从 条 件 


4 


图 11.1: 浮 数 f(z) 的 期 望 的 图 形 化 表示 ，f(z) 的 期 望 是 关于 概率 分 布 p(z) 计 算得 到 的 。 
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概率 分 布 p(zi | paui) 中 抽取 的 。 这 总 是 可 行 的 ， 因 为 在 每 一 步 ， 所 有 的 父 结 点 的 值 都 已 经 被 初始 
化 。 在 对 图 遍历 一 次 之 后 ， 我 们 会 得 到 来 自 联 合 概率 分 布 的 一 个 样本 。 

现在 ， 考 虑 某 些 结 点 被 观测 值 进行 初始 化 的 有 向 图 的 情形 。 原 则 上 ， 我 们 可 以 推广 上 述 的 步 

又 ， 至 少 在 结 点 表示 离散 变量 的 情形 下 我 们 可 以 这 样 做 。 对 上 述 步骤 的 推广 给 出 了 逻辑 采样 
(logic sampling) 的 方法 (Henrion, 1988) ， 它 可 以 被 看 做 11.1.4 节 讨论 的 重要 采样 (importance 
sampling) 的 一 种 特殊 情况 。 在 每 一 个 步骤 中 ， 当 我 们 得 到 了 变量 z; 的 一 个 采样 值 ， 它 的 值 被 观 
测 ， 并 且 将 采样 值 与 观测 值 进行 比较 。 如 果 它 们 相符 ， 那 么 采样 值 被 保留 ， 算法 继续 运行 ， 处 
理 下 一 个 变量 。 然 而 如 果 采 样 值 与 观测 值 不 相符 ， 那 么 目前 为 止 得 到 的 采样 被 丢弃 ， 算 法 从 图 
中 的 第 一 个 结 点 重新 开始 。 算 法 可 以 从 后 验 概率 分 布 中 正确 地 采样 ， 因 为 它 对 应 于 从 隐 含 变量 
和 数据 变量 的 联合 概率 分 布 中 采样 然后 丢弃 那些 与 观测 数据 不 相符 的 样本 (稍微 保留 了 一 些 从 
联合 概率 分 布 中 采样 的 不 连续 性 ， 只 要 观测 到 矛盾 的 值 ) 。 人 然而 ， 接 受 一 个 来 自 后 验 概率 分 布 
的 样本 的 整体 概率 会 随 着 观测 变量 的 数量 的 增加 以 及 变量 可 以 取得 的 状态 数量 的 增加 而 迅速 减 
小 ， 因 此 这 种 方法 在 实际 中 很 少 被 使 用 。 

在 由 无 向 图 定义 的 概率 分 布 的 情形 中 ， 如 果 我 们 希望 从 没有 观测 变量 的 先 验 概率 分 布 中 采 
人 

折 采 样 。 

除了 从 条 件 概率 分 布 中 采样 之 外 ， 我 们 可 能 也 需要 从 边缘 概率 分 布 中 采样 。 如 果 我 们 已 经 有 
了 一 种 从 联合 概率 分 布 p(x,v) 中 采样 的 方法 ， 那 么 得 到 从 边缘 概率 分 布 p(w) 中 的 样本 是 很 容易 
的 ， 只 需 忽 略 每 个 样本 中 的 v 的 值 即 可 。 

有 许多 讨论 蒙特 卡 罗 方 法 的 文献 。 从 统计 推断 的 角度 进行 研究 的 文献 包括 Chen et 
al. (2001) 、Gamerman (1997) 、Liu (2001) 、Neal (1996) 和 Robert and Casella (1999) 。 
并 且 有 一 些 综述 性 的 文章 为 统计 推断 的 采样 方法 提供 了 额外 的 信息 ， 
例如 Besag etal. (2005) 、Brooks (1998) 、Diaconis and Saloff-Coste (1998) 、Jerrum and Sin- 
clair (1996) 、Neal (1993) 、Tierney (1994) 和 Andrieu etal. (2003) 。 

Robert and Casella (1999) 总 结 了 马尔 科 夫 链 蒙 特 卡 罗 算 法 的 收敛 性 检测 。 


11.1 基本 采样 算法 


本 节 中 ， 我 们 研究 从 一 个 给 定 的 概率 分 布 中 生成 随机 样本 的 一 些 简单 的 方法 。 由 于 样本 是 通 
过 计算 机 算法 生成 的 ， 因 此 这 些 样本 实际 上 是 伪 随 机 数 (pseudo-random numbers) ， 也 就 是 
说 ， 它 们 通过 计算 的 方法 确定 ， 但 是 仍然 会 通过 随机 性 的 检测 。 生 成 这 种 数字 会 产生 一 些微 妙 
的 性 质 (Press et al., 1992) ， 不 在 本 书 的 讨论 范围 内 。 这 里 ， 我 们 假定 算法 生成 的 是 (0,1) 之 间 
均匀 分 布 的 伪 随 机 数 ， 事 实 上 大 部 分 软件 开发 环境 都 有 这 种 功能 。 





11.1.1 标准 概率 分 布 


授信 ， 我们 考虑 如 何 从 简单 的 非 均 匀 分 布 中 生成 随机 数 ， 假 定 我 们 已 经 有 了 一 个 均匀 分 布 
的 随机 数 的 来 源 。 假 设 z 在 区 间 (0, 1) 上 均匀 分 布 ， 我 们 使 用 茶 个 函数 A) 对 z 的 值 进行 变换 ， 
即 y = f(z)。y 上 的 概率 分 布 为 和 
之 
dy 
其 中 ， 在 这 种 情况 下 ，p(z) = 1。 我 们 的 目标 是 选择 一 个 函数 /2) 使 得 产生 出 的 y 值 具有 某 种 所 
需 的 具体 的 分 布 形式 p(y)， 对 公式 (11.5) 进行 积分 ， 我 们 有 


p(y) = p(2) (11.5) 








4 
2 一 几 (y) 三 | D(2) dy (11.0) 


它 是 p(y) 的 不 定 积分 。 因 此 ,vy = /-!( 2)， 因 此 我 们 必须 使 用 一 个 函数 来 对 这 个 均匀 分 布 的 随机 
数 进行 变换 ， 这 个 函数 是 所 求 的 概率 分 布 的 不 定 积分 的 反 函 数 ， 如 图 11.2 所 示 。 
考虑 指数 分 布 (exponential distribution ) 


p(y) = 入 exp( 一 Xy) (11.7) 
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图 11.2: 生成 非 均 匀 分 布 的 随机 数 的 变换 方法 的 几何 表示 。h(y) 是 所 求 概 率 分 布 p(y) 的 不 定 积 分 。 如 果 一 
个 均匀 分 布 的 随机 变量 z 使 用 y = h“"(z) 进 行 变换 ， 那 么 y 会 服从 概率 分 布 p(y)。 


—1 Z1 1 


图 11.3: Box-Muller 方 法 用 于 生成 高 斯 分 布 的 随机 数 ， 方 法 在 开始 时 使 用 的 是 单位 圆 内 部 均匀 分 布 的 样 
本 。 


其 中 0 < y < co。 在 这 种 情况 下 ， 公 式 (11.6) 的 积分 下 界 为 0， 因 此 h(y) = 1 一 exp( 一 和 Ay)。 从 
而 ， 如 果 我 们 将 均匀 分 布 的 变量 z 使 用 y = 一 和 “ln(1 一 z) 进 行 变换 ， 那 么 y 就 会 服从 指数 分 布 。 
另 一 种 可 以 应 用 变换 方法 的 概率 分 布 是 柯 西 分 布 


1 1 
p(y) = i (11.8) 
这 种 情况 下 ， 不 定 积 分 的 反 函 数 可 以 用 tan 浮 数 表 示 。 
对 于 多 个 变量 情形 的 推广 是 很 容易 的 ， 涉 及 到 变量 变化 的 Jacobian 行 列 式 ， 即 
有 O(z1,...,ZM) 
pV1;. .YM) = p21,...,ZM) We (11.9) 








作为 变换 方法 的 最 后 一 个 例子 ， 我 们 考虑 Box-Muller 方 法 ， 用 于 生成 高 斯 概率 分 布 的 样本 。 
首先 ， 假 设 我 们 生成 一 对 均匀 分 布 的 随机 变量 2,22 < (一 1,1)， 我 们 可 以 这 样 生 成 : 对 (0,1) 上 
的 均匀 分 布 的 变量 使 用 > 一 2z 一 1 的 方式 进行 变换 。 接 下 来 ， 我 们 丢弃 那些 不 满足 好 十 妈 < 1 的 
点 对 。 这 产生 出 单位 圆 内 部 的 一 个 均匀 分 布 ， 且 p(zt 22) = 二 ， 如 图 11.3 所 示 。 然 后 ， 对 于 每 


对 1, z2， 我 们 计算 i 
es 2\53 
yi = a ( 二 ) (11.10) 


_9lnr2 2 
w= ( 2 ) (11.11) 
其 中 = 这 十 好。 这 样 ， 放 和 如 的 联合 概率 分 布 为 


O(z1, 22) 
O(y1, y2) 


- 谨 "“( 弹 |[ 计 “( 贡 
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p(y1,Yy2) = p(Z1, 22) 
(11.12) 





Kg(20) ole) 


2 


Z0 之 


图 11.4: 在 拒绝 采样 的 方法 中 ， 样 本 从 一 个 简单 的 概率 分 布 q(z) 中 抽取 。 如 果 样 本 落 到 了 未 归 一 化 的 概率 
i 那么 样本 会 被 拒绝 。 得 到 的 样本 服从 p(z) 的 分 布 ， 它 
是 5(z) 的 归 一 化 版 本 。 


因此 刀 和 y% 是 独立 的 ， 且 每 个 都 服从 高 斯 分 布 ， 均 值 为 零 ， 方 差 为 1。 

如 果 y 服 从 高 斯 分 布 ， 且 均值 为 零 ， 方差 为 1， 那 么 oy 二 /也 服从 高 斯 分 布 ， 均 值 为 /4/， 方 差 
为 o2。 为 了 生成 向 量 值 的 变量 ， 且 这 个 变量 服从 多 元 高 斯 分 布 ， 均 值 为 hn，、 协 方差 为 允 ， 我 们 可 
以 使 用 Cholesky 分 解 ， 它 的 形式 为 吕 = LL7 (Press et al., 1992) 。 这 样 ， 如 果 z 是 一 个 向 量 值 的 
随机 变量 ， 且 它 的 元 素 是 独立 的 ， 并 且 服 从 均值 为 零 、 方 差 为 1 的 高 其 分布， 那么 y = 几 十 五 z 的 
均值 为 凡 ， 协 方差 为 己 。 

显然 ， 变 换 方 法 依赖 于 它 能 够 进行 计算 所 需 的 概率 分 布 ， 并 且 能 够 求 所 需 的 概率 分 布 的 不 定 
积分 的 反 通 数 。 这 样 的 计算 只 对 于 一 些 非常 有 限 的 简单 的 概率 分 布 可 行 ， 因 此 我 们 必须 寻找 一 
些 更 加 一 般 的 方法 。 这 里 ， 我 们 考虑 两 种 方法 ， 即 拒绝 采样 (rejection sampling) 和 重要 采样 

(importance sampling) 。 虽 然 这 些 方法 主要 限制 在 单 变量 概率 分 布 ， 因 此 无 法 直接 应 用 于 多 维 
的 复杂 问题 ， 但 是 这 些 方法 确实 是 更 一 般 的 方法 的 重要 成 分 。 


11.1.2 拒绝 采样 


拒绝 采样 框架 使 得 我 们 能 够 在 满足 某 些 限 制 条 件 的 情况 下 ， 从 相对 复杂 的 概率 分 布 中 采样 。 
首先 ， 我 们 考虑 单 变量 分 布 ， 然 后 接 下 来 讨论 对 于 多 维 情形 的 推广 。 

假设 我 们 希望 从 概率 分 布 p(z) 中 采样 ， 这 个 概率 分 布 不 是 我 们 目前 为 止 讨 论 过 的 简单 的 标准 
的 概率 分 布 中 的 一 个 ， 从 而 直接 从 p(z) 中 采样 是 很 困难 的 。 此 外 ， 正 如 经 常 出 现 的 情形 那样 ， 
我 们 假设 我 们 能 够 很 容易 地 计算 对 于 任意 给 定 的 z 值 的 p(z) (不 考虑 归 一 化 常数 2) ， 即 


p(z) = Pp(z) (11.13) 


其 中 (可 以 很 容易 地 计算 ， 但 是 2 未 知 。 

为 了 应 用 拒绝 采样 方法 ， 我 们 需要 一 些 简单 的 概率 分 布 vd(2)， 有 时 被 称 为 提议 分 布 
(proposal distribution) ， 并 且 我 们 已 经 可 以 从 提议 分 布 中 进行 采样 。 接 下 来 ， 我 们 引入 一 个 党 
数 F， 它 的 值 的 选择 满足 下 面 的 性 质 : 对 所 有 的 : 值 ， 都 有 kg(z) > 5(z)。 函 数 Kg(2) 被 称 为 比较 
函数 ， 并 且 图 11.4 给 出 了 单 变量 概率 分 布 的 说 明 。 拒 绝 采样 器 的 每 个 步骤 涉及 到 生成 两 个 随机 
数 。 首 先 ， 我 们 从 概率 分 布 g(z) 中 生成 一 个 数 z。 接 下 来 ， 我 们 在 区 间 [0, kg(zo)] 上 的 均匀 分 布 
中 生成 一 个 数 wo。 这 对 随机 数 在 函数 kg(z) 的 曲线 下 方 是 均匀 分 布 。 最 后 ， 如 果 uo > 5(z0)， 那 
么 样本 被 拒绝 ， 否 则 wo 被 保留 。 因 此 ， 如 果 它 位 于 图 11.4 的 灰色 阴影 部 分 ， 它 就 会 被 拒绝 。 这 
样 ， 科 人 的 点 对 在 曲线 (下 方 是 均匀 分 布 的 ， 因 此 对 应 的 > 值 服从 概 分 布 p()， 正 如 我 们 所 
需 的 那样 。 

z 的 原始 值 从 概率 分 布 4( 力 中 生成 ， 这 些 样本 之 后 被 接受 的 概率 为 痢 池 ， 因 此 一 个 样本 会 被 


接受 的 概率 为 
p( 护 受 ) = 总 二 | dz 











(11.14) 
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图 11.5: 绿色 曲线 表示 公式 (11.15) 给 出 的 Gamma 分 布 的 图 像 ， 红 色 曲 线 表 示 放 缩 后 的 柯 西 提 议 分 布 。 
从 Gamma 分 布 中 抽取 的 样本 可 以 通过 从 柯 西 分 布 中 采样 然后 使 用 拒绝 采样 准则 的 方法 得 到 。 


因此 ， 被 这 种 方法 拒绝 的 点 的 比例 依赖 于 曲线 kgq(z) 下 方 的 未 归 一 化 概率 分 布 5(z) 的 面积 的 比 
例 。 于 是 ， 我 们 看 到 ， 常 数 k 应 该 尽量 小 ， 同 时 满足 下 面 的 限制 条 件 : kq(z) 一 定 处 处 不 小 
于 P(z)。 

作为 拒绝 采样 的 一 个 例子 ， 我 们 考虑 从 Gamma 分 布 中 采样 的 任务 ，Gamma 分 布 的 形式 为 


bz°-1 exp(—bz) 
rT(a) 


对 于 a > 1 的 情形 ， 它 的 形状 是 钟 形 曲 线 ， 如 图 11.5 所 示 。 于 是 ， 一 个 合适 的 提议 分 布 为 柯 西 分 
布 (11.8) ， 因 为 这 个 分 布 也 是 一 个 钟 形 曲线 ， 并 且 因 为 我 们 可 以 使 用 之 前 讨论 的 变换 方法 从 这 
个 分 布 中 进行 采样 。 我 们 需要 对 柯 西 分 布 稍稍 进行 推广 ， 来 确保 它 处 处 的 值 都 不 小 于 Gamma 分 
布 。 可 以 这 样 做 : 对 一 个 均匀 分 布 的 变量 y， 使 用 z = btany + c 进 行 变换 ， 它 给 出 了 服从 下 面 概 
率 分 布 的 随机 数 











Gam(z | a,b) = (11.15) 


加 k 
1+ 人 


最 小 的 拒绝 率 在 下 面 的 条 件 下 得 到 : 令 c = a 一 1,0? = 2a 一 1， 并 且 将 常数 k 选 得 尽 可 能 小 ， 同 
时 满足 kq(z) > 5B(z) 的 要 求 。 浮 数 的 对 比 也 在 图 11.5 中 给 出 。 


q(z) (11.10) 





11.1.3 可 调节 的 拒绝 采样 


在 许多 我 们 希望 应 用 拒绝 采样 的 情形 中 ， 确 定 概 率 分 布 q(z) 的 一 个 合适 的 解析 形式 是 很 困难 
的 。 另 一 种 确定 其 函数 形式 的 方法 是 基于 概率 分 布 p(z) 的 值 直接 构建 函数 形式 (Gilks and Wild， 
1992) 。 对 于 P(2) 是 对 数 止 函数 的 情形 ， 即 Inz(z) 的 导数 是 z 的 单调 非 增 函 数 时 ， 界 限 函 数 的 构 
建 是 相当 简单 的 。 图 11.6 给 出 了 一 个 合适 的 界限 函数 的 构建 的 例子 。 

函数 mp(2) 和 它 的 切线 在 某 些 初始 的 格 点 处 进行 计算 ， 生 成 的 切线 的 交点 被 用 于 构建 界限 函 
数 。 接 下 来 ,我 们 从 界限 分 布 中 抽取 一 个 样本 值 。 这 很 容易 ， 因 为 界限 函数 的 对 数 是 一 系列 的 
线性 函数 ， 因 此 界限 函数 本 身 由 一 个 分 段 指 数 分 布 组 成 ， 形 式 为 


g(z) = kiNMexp{—ANi(z— 2)} li < < witl (11.17) 


其 中 各 _1; 是 在 点 -1 和 % 处 的 切线 的 交点 ， 和 i 是 切线 在 处 的 斜率 ，hki 表 示 对 应 的 偏 移 量 。 一 旦 
一 个 样本 点 被 抽取 完毕 ， 我 们 就 可 以 应 用 通常 的 拒绝 准则 了 。 如 果 样 本 被 接受 ， 那 么 它 就 是 所 
求 的 概率 分 布 中 的 一 个 样本 。 然 而 ， 如 果 样 本 被 拒绝 ， 那 么 它 被 并 入 格 点 的 集合 中 ， 计 算出 一 
条 新 的 切线 ， 从 而 界限 函数 被 优化 。 随 着 格 点 数量 的 增加 ， 界 限 函 数 对 所 求 的 概率 分 布 的 近似 
效果 逐渐 变 好 ， 拒 绝 的 概率 就 会 减 小 。 

这 个 算法 存在 一 种 变 体 ， 这 种 变 体 中 不 用 计算 导数 (Gilks, 1992) 。 可 调节 的 拒绝 采样 
的 框架 也 可 以 扩展 到 不 是 对 数 凹 函数 的 概率 分 布 中 ， 只 需 将 每 个 拒绝 采样 的 步骤 中 使 
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Inp(z) 


图 11.6: 在 对 数 凹 函数 的 情形 下 ， 拒 绝 和 采样 中 用 到 的 界限 函数 可 以 使 用 在 一 组 格 点 处 计算 的 切线 来 构造 。 
如 果 一 个 样本 点 被 拒绝 ， 那 么 它 被 添加 到 格 点 集合 中 ， 被 用 于 优化 界限 函数 。 


0.5 
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图 11.7: 从 高 斯 分 布 p(z) (绿色 曲线 ) 中 进行 拒绝 采样 的 例子 ， 提 议 分 布 9(z) 也 是 一 个 高 斯 分 布 ， 它 的 缩 
放 版 本 kaq(z) 用 红色 曲线 表示 。 


用 Metropolis-Hasting 阶 梯 函 数 (将 在 11.2.2 节 讨论 ) 即 可 ， 这 就 产生 了 可 调节 拒绝 Metropolis 采 样 
(adaptive rejection Metropolis sampling) 方法 (Gilks etal., 1995) 。 

显然 ， 对 于 具有 实际 价值 的 拒绝 采样 来 说 ， 我 们 要 求 对 比 函 数 要 接近 所 求 的 概率 分 布 ， 从 而 
拒绝 率 要 保持 一 个 最 小 值 。 现 在 ， 让 我 们 考察 当 我 们 试图 在 高 维 空间 中 使 用 拒绝 采样 的 方法 
会 出 现 什 么 现象 。 为 了 说 明 的 方便 ， 考 虑 一 个 多 少 有 些 人 造 感觉 的 问题 ， 其 中 我 们 想 要 从 
一 个 零 均 值 多 元 高 斯 分 布 中 采样 ， 这 个 高 斯 分 布 的 协 方 差 为 c2T， 其 中 了 是 单位 和 矩阵。 根据 
拒绝 采样 方法 ， 提 议 分 布 本 身 就 是 一 个 零 均 值 的 高 斯 分 布 ， 协 方差 为 co7。 很 明显 ， 为 了 使 
得 hq(2) > p(2) 的 k 值 存在 ， 我 们 必须 有 o2 > o2。 在 D 维 的 情形 中 ，k 的 值 为 = (加) ， 图 11.7 
给 出 了 = 1 的 情形 。 接 受 率 是 p(z) 和 kgq(z) 下 方 的 体积 的 比值 。 由 于 分 布 是 归 一 化 的 ， 这 个 
比值 就 是 i。 因 此 ， 接 受 率 随 着 维度 的 增 大 而 指数 地 减 小 。 即 使 5g 只 比 op 高 一 个 百分点 ， 对 
于 = 1000， 接 受 率 大 约 为 而 565。 在 这 个 说 明 的 例子 中 ， 对 比 函 数 接近 于 所 求 的 概率 分 布 。 对 
于 更 实际 的 例子 来 说 ， 所 求 的 概率 分 布 可 能 是 多 峰 的 ， 并 且 具 有 人 尖峰， 从 而 找到 一 个 较 好 的 提 
议 分 布 和 比较 函数 是 一 件 相 当 困 难 的 事情 。 此 外 ， 接 受 率 随 着 维度 的 指数 下 降 是 拒绝 采样 的 一 
个 一 般 特 征 。 虽 然 拒 绝 采 样 在 一 维 或 二 维 空间 中 是 一 个 有 用 的 方法 ， 但 是 它 不 适用 于 高 维 空 
间 。 然 而 ， 对 于 高 维 空间 中 的 更 加 复杂 的 算法 来 说 ， 它 起 着 子 过 程 的 作用 。 











11.1.4 ”重要 采样 


想 从 复杂 概率 分 布 中 采样 的 一 个 主要 原因 是 能 够 使 用 公式 (11.1) 计算 期 望 。 重 要 采样 
(importance sampling) 的 方法 提供 了 直接 近似 期 望 的 框架 ， 但 是 它 本 身 并 没有 提供 从 概率 分 
布 p(z) 中 采样 的 方法 。 

公式 (11.2) 给 出 的 期 望 的 有 限 和 近似 依赖 于 能 够 从 概率 分 布 p(z) 中 采样 。 然 而 ， 假 设 直接 
从 p(z) 中 采样 无 法 完成 ， 但 是 对 于 任意 给 定 的 z 值 ， 我 们 可 以 很 容易 地 计算 p(z)。 一 种 简单 的 计 
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图 11.8: 重要 采样 解决 了 计算 函数 (z) 关 于 分 布 p(z) 的 期 望 的 问题 ， 其 中 ， 从 p(z) 中 直接 采样 比较 困难 。 
相反 ,样本 {z()] 从 一 个 简单 的 概率 分 布 q(z) 中 抽取 ， 求 和 式 中 的 对 应 项 的 权 值 为 p(z())/a(z())。 

















算 期 望 的 方法 是 将 z 空 间 离散 化 为 均匀 的 格 点 ， 将 被 积 函 数 使 用 求 和 的 方式 计算 ， 形 式 为 
L 
E[f] ~ > p(z0)f(z0) (11.18) 
l=1 


这 种 方法 的 一 个 明显 的 问题 是 求 和 式 中 的 项 的 数量 随 着 z 的 维度 指数 增长 。 此 外 ， 正 如 我 们 已 经 
注意 到 的 那样 ， 我 们 感 兴趣 的 概率 分 布 通常 将 它们 的 大 部 分 质量 限制 在 z 空 间 的 一 个 很 小 的 区 
域 ， 因 此 均匀 地 采样 非常 低 效 ， 因 为 在 高 维 的 问题 中 ， 只 有 非常 小 的 一 部 分 样本 会 对 求 和 式 产 
生 巨 大 的 页 献 。 我 们 希望 从 p(z) 的 值 较 大 的 区 域 中 采样 ， 或 者 理想 情况 下 ， 从 p(z)f(z) 的 值 较 
大 的 区 域 中 采样 。 

与 拒绝 采样 的 情形 相同 ， 重 要 采样 基于 的 是 对 提议 分 布 %(z) 的 使 用 ， 我 们 很 容易 从 提议 分 布 
中 采样 ， 如 图 11.8 所 示 。 之 后 ， 我 们 可 以 通过 4(z) 中 的 样本 {zt} 的 有 限 和 的 形式 来 表示 期 户 














到 | #9) dz (11.19) 





"1 = 2 中 被 称 为 重要 性 权重 (importance weights) ， 修 正 了 由 于 从 错误 的 概率 分 布 中 采样 引入 
的 偏差 。 注 意 ， 与 拒绝 采样 不 同 ， 所 有 生成 的 样本 都 被 保留 。 

常见 的 情形 是 ， 概 率 分 布 p(z) 的 计算 结果 没有 归 一 化 ， 即 p(z) = BP(z)/2b， 其 中 PB(z) 可 以 很 
容易 地 计算 出 来 ， 而 如 未 知 。 类 似 地 ， 我 们 可 能 希望 使 用 重要 采样 分 布 4(z) = 唉 ! ， 它 具有 相 
同 的 性 质 。 于 是 我 们 有 

















2 B(z) 
= 丈 Te (11.20) 
L 
~ FF Df(z0) 
?7 1=1 
其 中 元 = 3G15) 。 我 们 可 以 使 用 同样 的 样本 集合 来 计算 比值 多 ， 结 果 为 
Zp 1 2 D(z) 
(11.21) 
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因此 

















L 
Pf] ~ > wf(z)) (11.22) 
[一 1 
其 中 我 们 已 经 定义 
二 xD)) 
六 az) 11.23 
Vn DB) 0 
q(z(™)) 





与 拒绝 采样 的 情形 相同 ， 重 要 采样 方法 的 成 功 严 重 依赖 于 采样 分 布 q(z) 与 所 求 的 概率 分 
布 p(z) 的 匹配 程度 。 经 常 出 现 的 情形 是 p(z) 变 化 剧烈 ,并且 大 部 分 的 质量 集中 于 z 空 间 的 一 个 相 
对 较 小 的 区 域 中 ， 此 时 重要 性 权重 {rz} 由 几 个 具有 较 大 值 的 权 值 控制 ， 剩 余 的 权 值 相对 较 小 。 
因此 ， 有 效 的 样本 集 大 小 会 比 表 面 上 的 样本 集 大 小 工 小 得 多 。 如 果 没 有 样本 落 在 p(z)f(z) 较 大 的 
区 域 中 ， 那 么 问题 会 更 加 严重 。 此 时 ，71 和 71f(z 中 ) 的 表面 上 的 方差 可 能 很 小 ， 即 使 期 望 的 估计 
可 能 错 得 离谱 。 因 此 ， 重 要 性 采样 方法 的 一 个 主要 的 缺点 是 它 具 有 产生 任意 错误 的 结果 的 
可 能 性 ， 并 且 这 种 错误 无 法 检测 。 这 也 强调 了 采样 分 布 9(z) 的 一 个 关键 的 要 求 ， 即 它 不 应 该 
在 p(z) 可 能 较 大 的 区 域 中 取得 较 小 的 值 或 者 为 零 的 值 。 

对 于 根据 图 模型 定义 的 概率 分 布 ， 我 们 可 以 用 多 种 方式 使 用 重要 采样 。 对 于 离散 变量 ， 一 个 
简单 的 方法 被 称 为 均匀 采样 (uniform sampling) 。 有 向 图 的 联合 概率 分 布 由 公式 (11.4) 定 
义 。 联 合 概率 分 布 中 的 每 个 样本 都 按照 下 面 的 方式 获得 : 首先 令 证 据 集合 中 的 变量 z; 等 于 它们 
的 观测 值 。 之 后 ， 每 个 剩余 的 变量 从 可 能 的 实例 空间 中 的 均匀 分 布 中 独立 地 抽取 。 为 了 确定 与 
一 个 样本 z 中 相关 联 的 对 应 的 权 值 ， 我 们 注意 到 采样 分 布 4(z) 是 z 的 可 能 选择 上 的 均匀 分 布 ， 并 
且 5(z | xz) = F(z)， 其 中 zx 表示 观测 变量 的 子 集 ， 等 式 来 源 于 下 面 的 事实 : 每 个 产生 的 样本 z 都 
与 证 据 相 容 。 因 此 ， 权 值 7 简单 地 正比 于 p(z)。 注 意 ， 变 量 可 以 以 任意 顺序 采样 。 如 果 后 验 概率 
分 布 与 均匀 分 布 的 差距 较 大 ， 那 么 这 种 方法 会 产生 较 差 的 结果 ， 而 这 正 是 实际 应 用 中 经 常 出 现 
的 情形 。 

这 种 方法 的 一 个 重要 的 提升 被 称 为 似 然 加 权 采 样 (likelihood weighted sampling) (Fung and 
Chang, 1990; Shachter and Peot, 1990) ， 基 于 对 变量 的 祖先 采样 。 反 过 来 对 于 每 个 变量 ， 如 果 变 
量 在 证 据 集合 中 ,那么 它 被 简单 地 设置 为 它 的 实例 值 。 如 果 它 没 在 证 据 集合 中 ， 那 么 它 从 条 件 
概率 分 布 p(z; | pa;) 中 采样 ， 其 中 条 件 变量 被 设置 为 它们 当前 的 采样 值 。 于 是 ,与 最 终 的 样 
本 z 关 联 的 权 值 为 














三 p(zi | pai) p(zi| pai) | 
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这 种 方法 可 以 进一步 扩展 ， 使 用 自重 要 采样 (self-importance sampling) (Shachter and Peot, 
1990) ， 其 中 重要 采样 分 布 连续 地 更 新 ， 反 映 当前 估计 的 后 验 概率 分 布 。 


11.1.5 采样 -重要 性 - 重 采 样 


11.1.2 节 讨论 的 拒绝 采样 方法 部 分 依赖 于 它 能 够 成 功 确 定常 数 k 的 一 个 合适 的 值 。 对 于 许多 对 
概率 分 布 p(z) 和 g(z) 来 说 ， 确 定 一 个 合适 的 k 值 是 不 现实 的 ， 因 为 任意 的 足够 大 的 k 值 都 能 够 保 
证 产生 所 求 的 分 布 的 上 界 ， 但 是 这 会 产生 相当 小 的 接受 率 。 

与 拒绝 采样 的 情形 相同 ， 采 样 - 重 要 性 - 重 采样 (sampling-importance-resampling, SIR) 方法 也 
使 用 采样 分 布 9(z)， 但 是 避免 了 必须 确定 常数 k。 这 个 方法 有 两 个 阶段 。 在 第 一 个 阶段 ，L 个 
样本 z 中 ,...,z 中 从 gq(z) 中 抽取 。 然 后 在 第 二 个 阶段 ， 权 值 wi,.….,wr 通 过 公式 (11.23) 被 
构建 出 来 。 最 后 ,I 个 样本 的 第 二 个 集合 从 离散 概率 分 布 (z 中 ,...,z 中 ) 中 抽取 ， 概 率 由 权 
值 (wi,...,wL) 给 定 。 

生成 的 L 个 样本 只 是 近似 地 服从 p(z)， 但 是 在 极限 L 一 oo 的 情况 下 ， 分 布 变 为 了 正确 的 分 
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布 。 为 了 说 明 这 一 点 ， 考 虑 一 元 变量 的 情形 ， 并 且 注 意 重新 采样 的 值 的 累积 分 布 为 


D(z <a) De 


l:z() <a 
_ DiTCzO < a)p(z0)/q(z0)) 
215(z0)/a(z0)) 


其 中 7() 是 示 性 函数 〈 参 数 为 真 时 函数 值 为 1， 否 则 为 0) 。 取 极限 L 一 co， 0 > 布 
进行 了 适当 的 正则 化 ， 我 们 可 以 将 求 和 替换 为 积分 ， 权 值 为 原始 的 采样 分 布 9(z)， 


(11.25) 








D(z) dz (11.26) 





它 是 p(z) 的 累积 分 布 浮 数 。 与 之 前 一 样 ， 我 们 看 到 对 p(z) 的 归 一 化 是 不 需要 的 。 

对 于 L 的 一 个 有 限 值 ， 以 及 一 个 给 定 的 初始 样本 集合 ， 重 新 采样 的 值 只 是 近似 地 从 所 求 的 概 
率 分 布 中 抽取 。 与 拒绝 采样 的 情形 相同 ， ed ge 近似 的 效果 
也 会 提升 。 当 q(z) = p(z) 时 ,初始 样本 (z 中 ，.….,z 中 ) 服 从 所 求 的 概率 分 布 ， 权 值 为 wn = 过， 
从 而 重新 采样 的 值 也 服从 所 求 的 分 布 。 

如 果 我 们 需要 求 出 关于 概率 分 布 p(z) 的 各 阶 和 矩 ， 那 么 可 以 直接 使 用 原始 样本 和 权 值 进行 计 
算 ， 因 为 




















(11.27) 


11.1.6 采样 与 EM 算法 


蒙特 卡 罗 方 法 除了 为 贝 叶 斯 框架 的 直接 实现 提供 了 原理 ， 还 在 频率 学 家 的 框架 内 起 着 重要 的 
作用 ， 例 如 寻找 最 大 似 然 解 。 特 别 地 ， 对 于 EM 算法 中 的 E 步 又 无 法 解析 地 计算 的 模型 ， 采 样 方 
法 也 可 以 用 来 近似 E 步 又 。 考 虑 一 个 模型 ， 它 的 隐 含 变量 为 Z， 可 见 (观测 ) 变量 为 X， 参 数 
为 9。 在 MM 步骤 中 关于 9 最 大 化 的 步骤 为 完整 数据 对 数 似 然 的 期 望 ， 形 式 为 


Q(6, 6 有) = /zz | X,0F)Inp(2Z,X|0) dg (11.28) 


我 们 可 以 使 用 采样 方法 来 近似 这 个 积分 ， 方法 是 计算 样本 {2 中 } 上 的 有 限 和 ， 这 些 样 本 是 从 当 
前 的 对 后 验 概率 分 布 p(2Z | 外 ,9 目 ) 的 估计 中 抽取 的 ， 即 


Q(0,0H) ~ bom ),X|0) (11.29) 


然后 ，Q@ 函 数 在 M 步 骤 中 使 用 通常 的 步骤 进行 优化 。 这 个 步 又 被 称 为 蒙特 卡 鸭 EM 算法 (Monte 
Carlo EM algorithm) 。 
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将 这 种 方法 推广 到 寻找 2 上 的 后 验 概率 的 峰值 (MAP 估 计 ) 的 问题 是 很 容易 的 ， 其 中 先 验 概 
率 分 布 p(9) 已 经 被 定义 。 我 们 只 需 在 进行 M 步 骤 之 前 ， 在 函数 Q@(9, 9 日) 中 加 上 ln p(9) 即 可 。 

蒙特 卡 罗 EM 算 法 的 一 个 特定 的 情形 ， 被 称 为 随机 EM (stochastic EM) 。 如 果 我 们 考虑 有 限 
数量 的 概率 分 布 组 成 的 混合 模型 ， 并 且 在 每 个 E 步 骤 中 只 抽取 一 个 样本 时 ， 我 们 就 会 用 到 这 种 
算法 。 这 里 ， 湾 在 变量 GZ 描述 了 K 个 混合 分 量 中 的 哪个 分 量 被 用 于 生成 每 个 数据 点 。 在 E 步 又 
中 ，2Z 的 样本 从 后 验 概率 分 布 p(2Z | 瑟 ,6) 中 抽取 ， 其 中 玉 是 数据 集 。 这 高 效 地 将 每 个 数据 点 
硬性 地 分 配 到 混合 分 布 中 的 一 个 分 量 中 。 在 M 步 又 中 ， 对 于 后 验 概率 分 布 的 这 个 采样 的 近似 被 
用 于 按照 平常 的 方式 更 新 模型 的 参数 。 

现在 假设 我 们 从 最 大 似 然 的 方法 转移 到 纯粹 的 贝 叶 斯 方法 ， 其 中 我 们 希望 从 参数 向 量 9 上 的 
后 验 概率 分 布 中 进行 采样 。 原 则 上 ， 我 们 希望 从 联合 后 验 分 布 p(9, 2 | 和) 中 抽取 样本 ， 但 是 我 
们 假设 这 个 计算 十 分 困难 。 进 一 步 地 ， 我 们 假设 从 完整 数据 参数 的 后 验 概率 分 布 p(0 | 2Z, 六) 中 
进行 采样 相对 简单 。 这 就 产生 了 数据 增 广 算法 (data augmentation algorithm) ， 它 在 两 个 步骤 之 
间 交 替 进 行 ， 这 两 个 步骤 被 称 为 [ 步 又 ( 归 答 (imputation) 步骤 ， 类 似 于 E 步 又 ) 和 P 步 又 (后 
验 (posterior) 步骤 ， 类 似 于 M 步 又 ) 。 
人 
面 的 关系 








p(Z | 久 ) = fz 10, X)p(0 | X) dg (11.30) 
因此 对 于 ! = 1 .… ,过 ,我 们 首先 从 当前 对 pz(9 | XX) 的 估计 中 抽取 样本 9 中， 然后 使 用 这 个 样本 
从 p(Z 1 90) 和) 中 抽取 样本 QZO 。 

P 步 又 。 给 定 关系 
n(0 1X)= | p012,X)p(Z 1X) dz (1131) 


我 们 使 用 从 I 步骤 中 得 到 的 样本 {2 中 }， 计 算 9 上 的 后 验 概率 分 布 的 修正 后 的 估计 ， 结 果 为 


p(0 | 20,X) (11.32) 


gl 


1 
0|X)~— 
nl0 | X) TY) 


根据 假设 ， 在 I 步骤 中 从 这 个 近似 分 布 中 采样 是 可 行 的 。 
注意 ， 我 们 对 参数 9 和 隐 含 变量 Z 进 行 了 (多少 有 些 人 为 的 ) 区 分 。 从 现在 开始 ， 我 们 不 进 
行 这 种 区 分 仅仅 集中 于 从 给 定 的 后 验 概率 分 布 中 抽取 样本 的 问题 。 


11.2 马尔 科 夫 链 蒙特 卡 罗 


前 一 节 中 ， 我 们 讨论 了 计算 函数 期 望 的 拒绝 采样 方法 和 重要 采样 方法 ,我 们 看 到 在 高 维 空间 
中 ， 这 两 种 方法 具有 很 大 的 局 限 性 。 因 此 ， 我们 在 本 节 中 讨论 一 个 非常 一 般 的 并 且 强 大 的 框 
架 ， 被 称 为 马尔 科 夫 链 蒙 特 卡 罗 (Markov chain Monte Carlo, MCMC) ， 它 使 得 我 们 可 以 从 一 大 
类 概率 分 布 中 进行 采样 ， 并 且 可 以 很 好 地 应 对 样本 空间 维度 的 增长 。 马 尔 科 夫 链 蒙特 卡 罗 方 法 
起 源 于 物理 学 (Metropolis and Ulam, 1949) ， 直 到 20 世 纪 80 年 代 ， 这 种 方法 才 开 始 对 统计 学 领 
域 产生 巨大 的 影响 。 

与 拒绝 采样 和 重要 采样 相同 ,我们 再 一 次 从 提议 分 布 中 采样 。 但 是 这 次 我 们 记录 下 当前 状 
态 z() ， 以 及 依赖 于 这 个 当前 状态 的 提议 分 布 d(z | z 中 )， 从 而 样本 序列 z 中 ,z(?,.…. .组 成 了 一 个 
马尔 科 夫 链 。 与 之 前 一 样 ， 如 果 我 们 有 p(z) = pa 那么 我 们 会 假定 对 于 任意 的 z 值 都 可 以 计 
算 5(z)， 虽然 儿 , 的 值 可 能 位 置 。 提 议 分 布 本身 被 选择 为 足够 简单 ， 从 而 直接 采样 很 容易 。 在 算 
A 

在 基本 的 Metropolis 算 法 中 (Metropolis et al, 1953) ， 我 们 假定 提议 分 布 是 对 称 的 ， 
即 dg(z4 | zB) = 9(zB | z4) 对 于 所 有 的 z4 和 zB 成 立 。 这 样 ， 候 选 的 样本 被 接受 的 概率 为 





4( 2 z(7)) 一 min (GS 六) (11.33) 
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图 11.9: 使 用 Metropolis 算 法 从 一 个 高 斯 分 布 中 采样 的 简单 例子 ， 这 个 高 斯 分 布 的 一 个 标准 差 的 位 置 用 椭 
圆 表示 。 提 议 分 布 是 一 个 各 向 同性 的 高 斯 分 布 ， 标 准 差 为 0.2。 被 接受 的 步 又 用 绿 线 表 示 ， 被 拒绝 的 步骤 
用 红线 表示 。 总 共生 成 了 150 个 候选 样本 ， 其 中 有 43 个 被 拒绝 。 


可 以 这 样 实现 : 在 单位 区 间 (0,1) 上 的 均匀 分 布 中 随机 选择 一 个 数 4， 然 后 如 果 A4A(z*,z 中 ) > v 就 
接受 这 个 样本 。 注 意 ， 如 果 从 z" 到 z* 引 起 了 p(z) 的 值 的 增 大 ， 那 么 这 个 候选 样本 当然 会 被 保 
[58) 


用 。o 
如 果 候 选 样本 被 接受 ， 那 么 zC+1) = z*， 否 则 候选 样本 点 z* 被 委 弃 ，z("+D) 被 设置 为 27， 
然后 从 概率 分 布 d(z | zxr+0)) 中 再 次 抽取 一 个 候选 样本 。 这 与 拒绝 采样 不 同 ， 那 里 拒绝 的 样本 被 
简单 地 丢弃 。 在 Metropolis 算 法 中 ， 当 一 个 候选 点 被 拒绝 时 ， 前 一 个 样本 点 会 被 包含 到 最 终 
的 样本 的 列表 中 ， 从 而 产生 了 样本 点 的 多 个 副本 。 当 然 ， 在 实际 实现 中 ， 每 个 保留 的 样本 
只 会 有 一 个 副本 ， 以 及 一 个 整数 的 权 因 子 ， 记 录 状 态 出 现 了 多 少 次 。 正 如 我 们 将 看 到 的 那 
样 ， 只 要 对 于 任意 的 z4 和 zB 都 有 q(z4 | zB) 为 正 〈 这 是 一 个 充分 条 件 但 不 是 必要 条 件 ) ， 那 么 
当 7 一 co 时 ，z 中 趋 近 于 p(z)。 然 而 ， 应 该 强调 的 是 ， 序 列 z 中 ,z(?,.. .不 是 来 自 p(z) 的 一 组 独 
立 的 样本 ， 因 为 连续 的 样本 是 高 度 相 关 的 。 如 果 我 们 希望 得 到 独立 的 样本 ， 那 么 我 们 可 以 丢弃 
序列 中 的 大 部 分 样本 ， 每 M 个 样本 中 保留 一 个 样本 。 对 于 充分 大 的 M， 保 留 的 样本 点 对 于 所 有 
的 实际 用 途 来 说 都 是 独立 的 。 图 11.9 给 出 了 一 个 简单 的 例子 ， 这 个 例子 使 用 Metropolis 算 法 从 一 

个 二 维 高 斯 分 布 中 采样 ， 其 中 提议 分 布 是 一 个 各 向 同性 的 高 斯 分 布 。 
通过 考察 一 个 具体 的 例子 ， 即 简单 的 随机 游 走 的 例子 ， 我 们 可 以 对 马尔 科 夫 链 蒙 特 卡 罗 算 法 
的 本 质 得 到 更 深刻 的 认识 。 考 虑 一 个 由 整数 组 成 的 状态 空间 z， 概 率 为 


p(z("+l) = zt) = 0.5 (11.34) 
p21D) = zn 十 1) = 0.25 (11.35) 
p(z("+D) 三 双人 二 1) = 0.25 (11.30) 





其 中 z() 表 示 在 步骤 r 的 状态 。 如 果 初 始 状态 是 z(0) = 0， 那 么 根据 对 称 性 ， 在 时 刻 r 的 期 望 状态 
也 是 零 ， 即 了 [z()] = 0， 类 似 地 很 容易 看 到 E[(z 中 )?] = 于。 因此， 在 7 步骤 之 后 ， 随 机 游 走 所 经 
过 的 平均 距离 正比 于 7 的 平方 根 。 这 个 平方 根 依赖 关系 是 随机 游 走 行为 的 一 个 典型 性 质 ， 表 明了 
随机 游 走 在 探索 状态 空间 时 是 很 低 效 的 。 正 如 我 们 会 看 到 的 那样 ， 设 计 马 尔 科 夫 链 蒙特 卡 罗 方 
法 的 一 个 中 心目 标 就 是 避免 随机 游 走行 为 。 


























11.2.1 马尔 科 夫 链 
在 详细 讨论 马尔 科 夫 链 蒙特 卡 罗 方法 之 前 ， 仔 细 研 究 马尔 科 夫 链 的 一 些 一 般 的 性 质 是 很 有 用 
的 。 特 别 地 ， 我 们 考察 在 什么 情况 下 马尔 科 夫 链 会 收敛 到 所 求 的 概率 分 布 上 。 一 阶 马 尔 科 夫 链 
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被 定义 为 一 系列 随机 变量 z 中 ,.…., z)， 使 得 下 面 的 条 件 独立 性 质 对 于 m € {1,.….,M 一 1} 成 立 
D(z"HD) | zz = p(t | zz (11.37) 


这 当然 可 以 表示 成 链 形 的 有 向 图 ， 如 图 8.38 所 示 。 之 后 ， 我 们 可 以 按照 下 面 的 方式 具体 化 一 
个 马尔 科 夫 链 : 给 定 初始 变量 的 概率 分 布 p(z(0))， 以 及 后 续 变 量 的 条 件 概率 ， 用 转移 概率 
(transition probability ) Tn (z0, zm+)) c= p(z(™+1) | zm 的 形式 表示 。 如 果 对 于 所 有 的 m， 
转移 概率 都 相同 ， 那 么 这 个 马尔 科 夫 链 被 称 为 同 质 的 (homogeneous) 。 
对 于 一 个 特定 的 变量 ， 边 缘 概 率 可 以 根据 前 一 个 变量 的 边缘 概率 用 链 式 乘 积 的 方式 表示 出 
来 ， 形 式 为 
Wt wt (11.38) 
z(m) 
对 于 一 个 概率 分 布 来 说 ， 如 果 马 尔 科 夫 链 中 的 每 一 步 都 让 这 个 概率 分 布 保持 不 变 ， 那 么 我 
们 说 这 个 概率 分 布 关 于 这 个 马尔 科 夫 链 是 不 变 的 ， 或 者 静止 的 。 因 此 ， 对 于 一 个 转移 概率 
为 T(z',z) 的 同 质 的 马尔 科 夫 链 来 说 ， 如 果 


六 (加 (11.39) 





那么 概率 分 布 P*(z) 是 不 变 的 。 注 意 ， 一 个 给 定 的 马尔 科 夫 链 可 能 有 多 个 不 变 的 概率 分 布 。 例 
如 ， 如 果 转 移 概 率 由 恒 等 变 换 给 出 ， 那 么 任意 的 概率 分 布 都 是 不 变 的 。 

确保 所 求 的 概率 分 布 p(z) 不 变 的 一 个 充分 ( 非 必要 ) 条 件 是 令 转 移 概率 满足 细节 平衡 
(detailed balance) 性 质 ， 定 义 为 


p*(z)T(z,z’) =p*(z)T(z',z) (11.40) 


对 特定 的 概率 分 布 p*(z) 成 立 。 很 容易 看 到 ， 满 足 关 于 特定 概率 分 布 的 细节 平衡 性 质 的 转移 概率 
会 使 得 那个 概率 分 布 具 有 不 变性 ， 因 为 


DP (2 T(z,z) = > Pp’(z)T(z,z) =p°(z) > p(x |z) =p (2) (11.41) 


满足 细节 平衡 性 质 的 马尔 科 夫 链 被 称 为 可 翻转 的 (reversible) 。 

我 们 的 目标 是 使 用 马尔 科 夫 链 从 一 个 给 定 的 概率 分 布 中 采样 。 如 果 我 们 构造 一 个 马 
尔 科 夫 链 使 得 所 求 的 概率 分 布 是 不 变 的 ， 那 么 我 们 就 可 以 达到 这 个 目标 。 然 而 ， 我 们 还 
要 要 求 对 于 mm 一 co0。， 概 率 分 布 p(z") 收 敛 到 所 求 的 不 变 的 概率 分 布 p*(z)， 与 初始 概率 分 
布 p(z(0) 无 关 。 这 种 性 质 被 称 为 各 态 历经 性 (ergodicity) ， 这 个 不 变 的 概率 分 布 被 称 为 均衡 
(equilibrium) 分 布 。 很 明显 ,一 个 具有 各 态 历经 性 的 马尔 科 夫 链 只 能 有 唯一 的 一 个 均衡 分 
布 。 可 以 证 明 ， 同 质 的 马尔 科 夫 链 具 有 各 态 历经 性 ， 只 需 对 不 变 的 概率 分 布 和 转移 概率 做 出 较 
弱 的 限制 即 可 (Neal, 1993) 。 

在 实际 中 ， 我 们 经 常 可 以 从 一 组 " 基 " 转 移 Bi1,..., Bk 中 构建 转移 概率 ， 方 法 为 : 将 各 
个 基 转移 表示 为 混合 概率 分 布 ， 形 式 为 





K 
T(z',z) = op Br(z, 之 ) (11.42) 
k=1 


混合 系数 Qi,...,ak 满 足 a > 0 且 >j; qx = 1。 此 外 ， 基 转移 可 以 通过 连续 的 应 用 组 合 到 一 起 ， 
即 

T(z',z) = >， … Bi(z',21)... Bk_1(ZkK_2,ZK_1)Bk (ZkK_1, 2) (11.43) 
如 果 一 个 概率 分 布 关于 每 个 基 转 移 都 是 不 变 的 ， 那 么 显然 它 关 于 公式 (11. 和 42) 和 (11.43) 也 是 
不 变 的 。 对 于 公式 (11.42) 的 混合 分 布 ， 如 果 每 个 基 转 移 满足 细节 平衡 ， 那 么 混合 转移 了 也 满 
足 细节 平衡 。 这 对 于 使 用 公式 (11.43) 构造 的 转移 概率 不 成 立 ， 虽 然 通 过 将 基 转 移 的 顺序 对 称 
化 ， 即 采用 Bi, B2,..., BK, Bk,.….,B2, B1 的 形式 ， 细 节 平 衡 的 性 质 可 以 被 恢复 。 使 用 组 合 转 移 
概率 的 一 个 常见 的 例子 是 每 个 基 转 移 只 改变 变量 的 一 个 子 集 的 情形 。 
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图 11.10: 使 用 Metropolis-Hastings 算 法 ， 用 一 个 各 项 同性 的 高 斯 提议 分 布 〈 蓝 色 圆 圈 ) 从 一 个 具有 相关 性 
的 多 元 高 斯 分 布 (红色 椭圆 ) 中 采样 ， 这 个 多 元 高 斯 分 布 在 不 同 的 方向 上 的 标准 差 的 数值 相当 不 同 。 为 
了 让 拒绝 率 较 低 ， 提 议 分 布 的 标 度 p 应 该 与 最 小 的 标准 差 omin 处 于 同一 个 量 级 ， 这 会 产生 随机 游 走 的 行 
为 ， 达 到 独立 的 状态 所 需 的 步 又 数 的 量 级 为 (omox/owmin)”， 其 中 omox 是 最 大 的 标准 差 。 


11.2.2 ”Metropolis-Hastings 算 法 


之 前 我 们 介绍 了 基本 的 Metropolis 算 法 ， 没 有 实际 演示 它 从 所 求 的 概率 分 布 中 采样 的 过 程 。 
在 给 出 一 个 证 明之 前 ， 我们 首先 讨论 一 个 推广 ， 被 称 为 Metropolis-Hastings 算 法 (Hastings， 
1970) ， 这 种 情形 下 ， 提 议 分 布 不 再 是 参数 的 一 个 对 称 函 数 。 特 别 地 ， 在 算法 的 步骤 r 中 ， 当 前 
我 们 从 概率 分 布 qs(z | z 中 ) 中 抽取 一 个 样本 z*， 然 后 以 概率 Ak(z*,z 中 ) 接 受 它 ， 
其 


~ 





* 7)) min D(z*)gr(z0") | z*) 
48(2 ,Zz ) = a 2 (11.44) 
这 里 ，K 标 记 出 可 能 的 转移 集合 中 的 成 员 。 与 之 前 一 样 ， 接 受 准则 的 计算 不 需要 知道 概率 分 
布 p(z) = 欧 } 中 的 归 一 化 常数 2。 对 于 一 个 对 称 的 提议 分 布 ，Metropolis-Hastings 准 则 (11.44) 
会 简化 为 标准 的 Metropolis 准 则 (11.33) 。 
我 们 现在 可 以 证 明 p(z) 对 于 由 Metropolis-Hastings 算 法 定义 的 马尔 科 夫 链 是 一 个 不 变 的 概率 
分 布 ， 方法 是 证 明 公 式 (11.40) 定义 的 细节 平衡 是 成 立 的 。 使 用 公式 (11.44) ,我 们 有 
pP(z)gqr(z’ | z)Ak(z,z) = min(p(z)qx(z’ | 2),p(z )qx(z | z)) 
= min(p(z’)gr(z | 2),p(z)qr(z | 2)) (11.45) 
=p(z)qr(z | z)Ax(z, 2)) 


证 明 完 毕 。 

提议 分 布 的 具体 的 选择 会 对 算法 的 表现 产生 重要 的 影响 。 对 于 连续 状态 空间 来 说 ， 一 个 常见 
的 选择 是 一 个 以 当前 状态 为 中 心 的 高 斯 分 布 ， 这 会 在 确定 分 布 的 方差 参数 时 需要 进行 一 个 重要 
的 折 中 。 如 果 方 差 过 小 ， 那 么 接受 的 转移 的 比例 会 很 高 ， 但 是 遍历 状态 空间 的 形式 是 一 个 缓慢 
的 随机 游 走 过 程 ， 导 致 较 长 的 时 间 开 销 。 然 而 ， 如 果 方 差 过 大 ， 那 么 拒绝 率 会 很 高 ， 因 为 在 我 
们 考虑 的 这 种 复杂 问题 中 ， 许 多 的 步骤 会 到 达 2(z) 很 低 的 状态 。 考 虑 一 个 多 元 概率 分 布 D(z)， 
它 在 z 的 元 素 之 间 具 有 很 强 的 相关 性 ， 如 图 11.10 所 示 。 提 议 分 布 的 标 度 p 应 该 尽 可 能 大 ， 同 时 要 
避免 达到 较 高 的 拒绝 率 。 这 表明 ，p 应 该 与 最 小 的 长 度 标 度 cmin 是 同一 个 量 级 的 。 然 后 ， 系 统 通 
过 随机 游 走 的 方式 探索 伸 长 的 方向 ， 因 此 到 达 一 个 与 原始 状态 或 多 或 少 独立 的 状态 所 需 的 步骤 
数量 是 (cnux/omia)? 量 级 的 。 事 实 上 ， 在 二 维 的 情形 下 ， 随 着 po 的 增加 ， 拒 绝 率 的 增加 会 被 接收 
的 转移 步骤 数 的 增加 所 抵消 。 更 一 般 地 ， 对 于 多 元 高 斯 分 布 ， 得 到 独立 样本 所 需 的 步骤 的 数量 
的 增长 量 级 是 (omox/02)? 的 ， 其 中 o2 是 第 二 小 的 标准 差 (Neal, 1993) 。 抛 开 这 些 细节 不 谈 ， 如 
果 概 率 分 布 在 不 同 的 方向 上 的 差异 非常 大 ， 那 么 Metropolis-Hastings 算 法 的 收敛 速度 会 非常 慢 。 





11.3” 吉 布 斯 采样 


吉 布 斯 采样 (Geman and Geman, 1984) 是 一 个 简单 的 并 且 广 泛 应 用 的 马尔 科 夫 链 蒙 特 卡 罗 
算法 ， 可 以 被 看 做 Metropolis-Hastings 算 法 的 一 个 具体 的 情形 。 

考虑 我 们 想 采样 的 概率 分 布 p(z) = p(z1,.…., zm)， 并 且 假 设 我 们 已 经 选择 了 马尔 科 夫 链 的 某 
个 初始 的 状态 。 吉 布 斯 采样 的 每 个 步骤 涉及 到 将 一 个 变量 的 值 奉 换 为 以 剩余 变量 的 值 为 条 件 ， 
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从 这 个 概率 分 布 中 抽取 的 那个 变量 的 值 。 因 此 我 们 将 忆 蔡 换 为 从 概率 分 布 p(z | x\i) 中 抽取 的 
值 ， 其 中 ;表示 z 的 第 i 个 元 素 ，z\; 表 示 思 ,.…., zM 去 掉 % 这 一 项 。 这 个 步骤 要 么 按照 某 种 特定 的 
顺序 在 变量 之 间 进 行 循环 ， 要 么 每 一 步 中 按照 某 个 概率 分 布 随机 地 选择 一 个 变量 进行 更 新 。 

例如 ， 假 设 我 们 有 一 个 在 三 个 变量 上 的 概率 分 布 p(z1, 22, z3)， 在 算法 的 第 7 步 ， 我 们 已 经 选 
择 了 zm, z47,z4 的 值 。 首 先 ， 我 们 将 z1 替换 为 新 值 z("*  ， 这 个 新 值 是 从 条 件 概率 分 布 


p(z1 | 2 zt 站) (11.40) 
中 采样 得 到 的 。 接 下 来 ， 我 们 将 次 将 换 为 + ， 这 个 新 值 是 从 条 件 概 率 分 布 
p(z2 | 2 z(")) (11.47) 


中 采样 得 到 的 ， 即 习 的 新 值 可 以 在 接 下 来 的 采样 步骤 中 直接 使 用 。 然 后 ， 我 们 使 用 样本 zy 更 
新 zs， 其 中 又 是 从 
p(z3 | z+), xD) (11.48) 


中 抽取 的 。 以 此 类 推 ， 在 这 三 个 变量 之 间 进 行 循环 。 
。 初 始 化 {zi : i= 1,...,M}。 





对 于 二 
- 采样 1D ~ p(z1 | 2 zz )。 
- 采样 21D ~ p(z2 | 2("1, 2),... ,2D)。 
Ee A 
一 采样 zi7+1) ~ p(zm | z(t) zt, Se ts 


为 了 证 明 这 个 步 又 能 够 从 所 需 的 概率 分 布 中 采样 ， 我 们 首先 注意 到 对 于 吉 布 斯 采样 的 每 个 步 
又 来 说 ， 概 率 分 布 pz) 是 不 变 的 ， 因 此 对 于 整个 马尔 科 夫 链 来 说 也 是 不 变 的 。 这 是 由 于 当 我 们 
从 p(z | zi) 中 采样 时 ， 边 缘 概率 分 布 plz\) 显 然 是 不 变 的 ， 因 为 z\, 的 值 是 不 变 的 。 并 且 ， 根 据 
定义 ， 对 于 每 个 步 又 中 来 自 正确 条 件 概率 分 布 p(z; | z\i) 的 样本 ， 条 件 概率 分 布 都 是 不 变 的 。 由 
于 条 人 村 率 分 布 和 这 统率 分 布 共同 确定 的 联合 可 素 分 布 、 因 此 我 们 看 到 联合 枯 率 分 布 本 身 有 
不 变 的。 

为 了 让 吉 布 斯 采样 能 够 从 正确 的 概率 分 布 中 得 到 样本 ， 第 二 个 需要 满足 的 要 求 为 各 态 历经 
性 。 各 态 历 经 性 的 一 个 充分 条 件 是 没有 条 件 概率 分 布 处 处 为 零 。 如 果 这 个 要 求 满足 ， 那 么 z 空 间 
中 的 任意 一 点 都 可 以 从 其 他 的 任意 二 点 经 过 有 限 步骤 达到 ， 这 些 步 又 中 每 次 对 一 个 变量 进行 更 
新 。 如 果 这 个 要 求 没有 满足 ， 即 某 些 条 件 概率 分 布 为 零 ， 那 么 在 这 种 情况 下 应 用 吉 布 斯 采样 
时 ， 必 须 显 式 地 证 明 各 态 历 经 性 。 

为 了 完成 算法 ， 初 始 状态 的 概率 分 布 也 应 该 被 指定 ， 虽 然 在 多 轮 透 代 之 后 ， 样 本 与 初始 状态 
的 分 布 无 关 。 当 然 ， 马 尔 科 夫 链 中 的 连续 的 样本 是 高 度 相关 的 ， 因 此 为 了 得 到 近似 独立 的 样 
本 ， 需 要 对 序列 进行 下 采样 。 

我 们 可 以 将 吉 布 斯 采样 步 又 看 成 Metropolis-Hastings 算 法 的 一 个 特定 的 情况 ， 如 下 所 述 。 考 
虞 一 个 Metropolis-Hastings 采 样 的 步骤 ， 它 涉及 到 变量 水 ， 同 时 保持 剩余 的 变量 z\4 不 变 ， 并 且 
对 于 这 种 情形 来 说 ， 从 z 到 z 的 转移 概率 为 or(z* | z) = p( 避 | z\k)。 我 们 注意 到 zt zw 
因为 在 采样 的 步骤 中 ， 向 量 的 各 个 元 素 都 不 改变 。 并 且 ，p(z) = p(zx | zw)p(zww)。 因 此 ， 确 
定 Metropolis-Hastings 算 法 中 的 接受 概率 的 因子 (11.44) 为 

， pz*)gi(z|2*) P| ZPD ZE | ZA) 
2 和 
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图 11.11: 通过 交替 更 新 两 个 变量 的 方式 进行 吉 布 斯 采样 。 这 两 个 变量 服从 一 个 相关 的 高 斯 分 布 。 步 长 由 
条 件 概率 分 布 (绿色 曲线 ) 的 标准 差 控 制 ， 值 为 0(1)， 在 联合 概率 分 布 较 长 的 方向 上 的 速度 很 慢 。 得 到 
这 个 分 布 的 独立 样本 所 需 的 步骤 数量 为 O((L/1)”)。 


推导 时 我 们 用 到 了 zt = zhp。 因 此 Metropolis-Hastings 步 又 总 是 被 接受 的 。 

与 Metropolis 算 法 一 样 ， 我 们 可 以 通过 研究 吉 布 斯 采样 算法 在 高 斯 分 布 上 的 应 用 ， 更 深刻 地 
认识 算法 的 原理 。 考 虑 两 个 相关 变量 上 的 一 个 高 斯 分 布 ， 如 图 11.11 所 示 。 这 个 高 斯 分 布 的 条 件 
概率 分 布 的 宽度 为 !/， 边 缘 概 率 分 布 的 宽度 为 L。 典 型 的 步 长 由 条 件 概 率 分 布 确定 ， 从 而 量 级 
为 !。 由 于 状态 按照 随机 游 走 的 方式 进行 转移 ， 因 此 得 到 这 个 分 布 中 的 独立 样本 所 需 的 步骤 数量 
的 量 级 为 (L/1)?。 当 然 ， 如 果 高 斯 分 布 不 是 相关 的 ， 那 么 吉 布 斯 采样 的 效率 是 最 高 的 。 对 于 这 
个 简单 的 问题 ， 我们 可 以 将 坐标 系 旋 转 ， 从 而 解除 变量 之 间 的 相关 关系 。 然 而 ， 在 实际 应 用 
中 ， 通 常 找到 这 种 变换 是 不 可 行 的 。 

一 种 减 小 吉 布 斯 采样 过 程 中 的 随机 游 走 行为 的 方法 被 称 为 过 松弛 (over-relaxation) (Adler, 
1981) 。 在 这 种 方法 的 最 初 的 形式 中 ， 它 被 用 于 处 理 条 件 概 率 分 布 是 高 斯 分 布 的 情形 ， 这 种 情 
形 要 比 多 元 高 斯 分 布 更 一 般 ， 因 为 诸如 非 高 斯 分 布 p(z,y) x exp( 一 z2) 具 有 高 斯 条 件 分 布 的 形 
式 。 在 吉 布 斯 采样 算法 的 每 个 步骤 中 ， 对 于 一 个 特定 的 分 量 ， 条 件 概 率 分 布 具有 均值 /wi; 和 方 
差 of。 在 过 松弛 框架 中 ，zi 被 替换 为 


d= M+ a(n — mn) + oi(l — oo)iy (11.50) 


其 中 vw 是 一 个 高 斯 随机 变量 ， 均 值 为 0， 方 差 为 1， a 是 一 个 参数 ， 满 足 -1 < a < 1。 对 
于 a = 0 的 情形 ， 方 法 等 价 于 标准 的 吉 布 斯 采样 ， 对 于 a < 0， 步骤 会 偏向 于 与 均值 相反 的 一 
侧 。 这 个 步骤 使 得 所 求 的 概率 分 布 具有 不 变性 ， 因 为 如 果 交 的 均值 为 店 ， 方 差 为 2 ， 那 么 zx 也 
是 。 过 松弛 的 效果 是 当 变 量 高 度 相关 时 ， 鼓 励 在 状态 空间 中 的 直接 移动 。 有 序 过 松弛 (ordered 
over-relaxation) 框架 (Neal 1999) 将 这 种 方法 推广 到 了 非 高 斯 分 布 的 情形 。 

吉 布 斯 采样 的 实际 应 用 依赖 于 哪个 样本 可 以 从 条 件 概 率 分 布 p(zx | z\x) 中 抽取 。 在 概率 分 布 
使 用 图 模型 表示 的 情况 下 ， 各 个 结 点 的 条 件 概 率 分 布 只 依赖 于 对 应 的 马尔 科 夫 毯 中 的 变量 ， 如 
图 11.12 所 示 。 对 于 有 向 图 来 说 ， 以 某 个 结 点 的 父 结 点 为 条 件 ， 这 个 结 点 的 一 大 类 条 件 概率 分 布 
都 会 使 得 用 于 吉 布 斯 采样 的 概率 分 布 是 对 数 凹 函数 。 于 是 ，11.1.3 节 讨论 的 可 调节 拒绝 采样 方法 
提供 了 有 向 图 的 蒙特 卡 罗 采 样 方法 的 一 个 框架 ， 这 种 方法 具有 广泛 的 适用 性 。 

如 果 图 是 使 用 指数 族 分 布 构建 的 ， 并 且 父 结 点 - 子 结 点 关系 保持 共 斩 ， 那 么 吉 布 斯 采样 中 的 
完整 的 条 件 概 率 分 布 会 与 定义 在 每 个 结 点 的 原始 的 条 件 概率 分 布 ( 以 父 结 点 为 条 件 ) 具有 相同 
的 函数 形式 ， 因 此 可 以 使 用 标准 的 采样 方法 。 通 常 ， 完 整 的 条 件 概率 分 布 的 形式 会 很 复杂 ， 从 
而 无 法 使 用 标准 的 采样 方法 。 然 而 ， 如 果 这 些 条 件 概率 分 布 是 对 数 凹 函数 ， 那 么 使 用 可 调整 的 
拒绝 采样 方法 ， 采 样 可 以 高 效 地 完成 (假设 对 应 的 变量 是 标量 ) 。 

如 果 在 吉 布 斯 采样 算法 的 每 个 阶段 ， 我 们 不 从 对 应 的 条 件 概率 分 布 中 抽取 样本 ， 而 是 对 变量 
进行 一 个 点 估计， 这 个 点 估计 由 条 件 概 率 分 布 的 最 大 值 给 出 ， 那 么 我 们 就 得 到 了 8.3.3 节 讨论 的 
迭代 条 件 峰 值 (ICM) 算法 。 因 此 ，ICM 可 以 看 成 是 吉 布 斯 采样 的 一 种 贪心 近似 。 
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图 11.12: 吉 布 斯 采样 方法 要 求 样本 从 一 个 变量 的 条 件 概 率 分 布 中 抽取 ， 条件 是 其 他 的 变量 。 对 于 图 模型 
来 说 ， 条 件 概 率 分 布 只 是 马尔 科 夫 毯 中 的 结 点 状态 的 函数 。 对 于 无 向 图 来 说 ， 马 尔 科 夫 毯 由 相 邻 结 点 的 
集合 组 成 ， 如 左 图 所 示 。 而 对 于 有 向 图 来 说 ， 马 尔 科 夫 毯 由 父 结 点 、 子 结 点 、 同 父 结 点 组 成 ， 如 右 图 所 
修 o 


由 于 基本 的 吉 布 斯 采样 方法 每 次 只 考虑 一 个 变量 ， 因 此 它 在 连续 样本 之 间 具 有 很 强 的 依赖 
性 。 在 另 一 个 极端 情况 下 ， 如 果 我 们 直接 从 联合 概率 分 布 中 采样 (我 们 一 直 假 定 这 种 操作 无 法 
完成 ) ， 那 么 连续 的 样本 点 之 间 就 是 独立 的 。 我 们 可 以 采用 一 种 折 中 的 方法 来 提升 简单 的 吉 布 
斯 采样 的 效果 ， 即 我 们 连续 地 对 一 组 变量 进行 采样 ， 而 不 是 对 一 个 变量 进行 采样 。 这 就 是 分 块 
吉 布 斯 (blocking Gibbs) 采样 算法 。 这 种 算法 中 ， 将 变量 集合 分 块 (未 必 互 斥 ) ， 然 后 在 每 个 
块 内 部 联合 地 采样 ， 采 样 时 以 剩余 的 变量 为 条 件 (Jensen etal., 1995) 。 


11.4 切片 采样 


我 们 已 经 看 到 ，Metropolis 算 法 的 一 个 困难 之 处 是 它 对 于 步 长 的 敏感 性 。 如 果 步 长 过 小 ， 那 
么 由 于 随机 游 走行 为 ， 算 法 会 很 慢 。 而 如 果 步 长 过 大 ， 那 么 由 于 较 高 的 拒绝 率 ， 算 法 会 很 低 
效 。 切 片 采样 (slice sampling) 方法 (Neal, 2003) 提供 了 一 个 可 以 自动 调节 步 长 来 匹配 分 布 特 
征 的 方法 。 与 之 前 一 样 ， 它 需要 我 们 能 够 计算 未 归 一 化 的 概率 分 布 5(z)。 

首先 考虑 一 元 变量 的 情形 。 切 片 采样 涉及 到 使 用 额外 的 变量 u 对 z 进 行 增 广 ， 然 后 从 联合 
的 (z, 空间 中 采样 。 当 我 们 在 11.5 节 讨论 混合 蒙特 卡 罗 方 法 时 ， 我 们 会 看 到 这 种 方法 的 男 一 个 
例子 。 目 标 是 从 下 面 的 概率 分 布 





中 却 。 如 果 0 < w < 5(z) 
J 
D(z,u) = ' 其 他 情况 (11.51) 
中 均匀 地 进行 采样 ， 其 中 2 = [5(z) dz。z 上 的 边缘 概率 分 布 为 
~、 D(z) 1 D(z) 


因此 ， 我 们 可 以 通过 从 F(z,w) 中 采样 ， 然 后 忽略 u 值 的 方式 得 到 p(z) 的 样本 。 通 过 交替 地 
对 z 和 uw 进行 采样 即 可 完成 这 一 点 。 给 定 z 的 值 ， 我 们 可 以 计算 5(z) 的 值 ， 然 后 在 0 < w < 5(z) 上 
均匀 地 对 v 进 行 采样 ， 这 很 容易 。 然 后 ， 我 们 固定 v， 在 由 {z : 5(z) > 中 定义 的 分 布 的 " 切 
片 上， 对 z 进 行 均匀 地 采样 。 图 11.13(Q) 给 出 了 说 明 。 

在 实际 应 用 中 ， 直 接 从 穿 过 概率 分 布 的 切片 中 采样 很 困难 ， 因 此 我 们 定义 了 一 个 采样 方法 ， 
它 保持 下 2, 下 的 均匀 分 布 具有 不 变性 ， 这 可 以 通过 确保 满足 细节 平衡 的 套件 来 实现 。 假 设 z 的 
当前 值 记 作 z(")， 并 且 我 们 已 经 得 到 了 一 个 对 应 的 样本 vw。z 的 下 一 个 值 可 以 通过 考察 包含 zt7) 的 
区 域 zmin < z < zmax 来 获得 。 根 据 概率 分 布 的 特征 长 度 标 度 来 对 步 长 进行 的 调节 就 发 生 在 这 
里 。 我 们 希望 区 域 包含 尽 可 能 多 的 切片 ， 从 而 使 得 z 空 间 中 能 进行 较 大 的 移动 ， 同 时 希望 切片 外 
的 区 域 尽 可 能 小 ， 因 为 切片 外 的 区 域 会 使 得 采样 变 得 低 效 。 

一 种 选择 区 域 的 方法 是 ， 从 一 个 包含 (的 具有 某 个 宽度 w 的 区 域 开 始 ， 然 后 测试 每 个 端 
点 ， 看 它们 是 否 位 于 切片 内 部 。 如 果 有 端点 没 在 切片 内 部 ， 那 么 区 域 在 增加 w 值 的 方向 上 进行 
扩展 ， 知 道 端点 位 于 区 域外 。 然 后 ，z 的 一 个 样本 被 从 这 个 区 域 中 均匀 抽取 。 如 果 它 位 于 切片 
内 ， 那 么 它 就 构成 了 zx+0)。 如 果 它 位 于 切片 外 ， 那 么 区 域 收缩 ， 使 得 z 组 成 一 个 端点 ， 并 且 区 
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7) 2 


(b) 





图 11.13: 切片 采样 的 例子 。@q 对 于 给 定 的 zt) ，v 的 值 从 0 < w < 5(z 中 ) 区 域 中 均匀 采样 ， 它 之 后 定义 了 
穿 过 这 个 概率 分 布 的 一 个 “切片 。(b) 由 于 直接 从 切片 中 采样 是 不 可 行 的 ， 因 此 z 的 一 个 新 的 样本 被 从 区 
域 zmin < Z < Zmax 中 抽取 ， 它 包含 了 前 一 个 值 ztr)。 


域 仍然 包含 中。 然后 ， 另 一 个 样本 点 从 这 个 缩小 的 区 域 中 均匀 抽取 ， 以 此 类 推 ， 直 到 找到 位 于 
切片 内 部 的 一 个 z 值 。 

切片 采样 可 以 应 用 于 多 元 分 布 中 ， 方法 是 按照 吉 布 斯 采样 的 方式 重复 地 对 每 个 变量 进行 采 
样 。 这 要 求 对 于 每 个 元 素 ;， 我 们 能 够 计算 一 个 正比 于 p(zi | z\i) 的 函数 。 











11.5 混合 蒙特 卡 罗 算法 

正如 我 们 已 经 注意 到 的 那样 ，Metropolis 算 法 的 一 个 主要 的 局 限 是 它 具 有 随机 游 走 的 行为 ， 
而 在 状态 空间 中 遍历 的 距离 与 步骤 数量 只 是 平方 根 的 关系 。 仅 仅 通过 增 大 步 长 的 方式 是 无 法 解 
决 这 个 问题 的 ， 因 为 这 会 使 得 拒绝 率 变 高 。 

本 节 中 ， 我 们 介绍 一 类 更 加 复杂 的 转移 方法 。 这 些 方法 基于 对 物理 系统 的 一 个 类 比 ， 能 够 让 
系统 状态 发 生 较 大 的 改变 ， 同 时 让 拒绝 的 概率 较 低 。 它 适用 于 连续 变量 上 的 概率 分 布 ， 对 于 连 
续 变量 ， 我 们 已 经 能 够 计算 对 数 概 率 关 于 状态 变量 的 梯度 。 我 们 会 在 11.54 节 讨论 动态 系统 杠 
架 ， 然 后 在 11.52 节 ， 我 们 会 解释 这 个 框架 如 何 与 Metropolis 算 法 结合 ， 产 生出 一 个 强大 的 混合 
蒙特 卡 罗 算 法 。 这 里 不 需要 物理 学 的 背景 ， 因 为 本 节 是 自 洽 的 ， 并 且 关键 的 结果 全 部 从 基本 的 
原理 中 推导 出 。 


11.5.1 动态 系统 


随机 采样 的 动态 方法 起 源 于 模拟 哈密 顿 动力 学 下 进行 变化 的 物理 系统 的 行为 。 在 马尔 科 夫 链 
蒙特 卡 罗 模 拟 中 ， 目 标 是 从 一 个 给 定 的 概率 分 布 p(z) 中 采样 。 通 过 将 概率 仿真 转化 为 哈密 顿 系 
统 的 形式 ， 我 们 可 以 利用 哈密 顿 动力 学 (Hamiltonian dynamics) 的 框架 。 为 了 与 这 个 领域 的 文 
献 保 持 一 致 ， 我 们 在 必要 的 时 候 会 使 用 相关 动态 系统 的 术语 ， 这 些 术语 会 随 着 我 们 内 容 的 推进 
而 给 出 定义 。 

我 们 考虑 的 动力 学 对 应 于 在 连续 时 刻 ( 记 作 7) 下 的 状态 变量 z = {2} 的 演化 。 经 典 的 动力 
学 由 牛顿 第 二 定律 描述 ， 即 物体 的 加 速度 正比 于 施加 的 力 ， 对 应 于 关于 时 间 的 二 阶 微分 方 
程 。 我 们 可 以 将 一 个 二 阶 微分 方程 分 解 为 两 个 相互 偶合 的 一 阶 方程 ， 方 法 是 引入 中 间 的 动量 
(momentum) 变量 >， 对 应 于 状态 变量 z 的 变化 率 ， 元 素 为 

dz 
dr 


从 动力 学 的 角度 ， 乞 可 以 被 看 做 位 置 (position) 变量 。 因 此 对 于 每 个 位 置 变量 ， 都 存在 一 个 对 
应 的 动量 变量 ， 位 置 和 动量 组 成 的 联合 空间 被 称 为 相 空间 (phase space) 。 
不 失 一 般 性 ， 我 们 可 以 将 概率 分 布 p(z) 写 成 下 面 的 形式 
p(z) = 记 exp(-B(z) (11.50 
p 
其 中 瑟 (z) 可 以 看 做 状态 = 处 的 势能 (potential energy) 。 系 统 的 加 速度 是 动量 的 变化 率 ， 通 过 施 
加 力 (force) 的 方式 确定 ， 它 本 身 是 势能 的 负 梯 度 ， 即 
dr; _ OE(z) 


二 11.55 
dT O%i ( ) 


(11.53) 


Ti 
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使 用 哈密 顿 框架 重新 写 出 这 个 动态 系统 的 公式 是 比较 方便 的 。 为 了 完成 这 一 点 ， 我 们 首先 将 
动能 (kinetic energy) 定义 为 
K(r) = snl = 3 2 (11.50) 
系统 的 总 能 量 是 势能 和 动能 之 和 ， 即 
H(z,7) = E(z)+ K(r) (11.57) 


其 中 五 是 哈密 顿 削 数 (Hamiltonian function) 。 使 用 公式 (11.53) 、 (11.55) 、 (11.56) 和 
(11.57) ,我 们 现在 可 以 将 系统 的 动力 学 用 哈密 顿 方程 的 形式 表示 出 来 ， 形 式 为 





dz oH 

二 11.58 

dT7 Ori ( ) 
dr; oH 
元 交 站 二 全 11.59 
dT O%i 4 ) 


在 动态 系统 的 变化 过 程 中 ， 哈 密 顿 通 数 五 的 值 是 一 个 常数 ， 这 一 点 通过 求 微分 的 方式 很 容易 看 
出 来 。 
< dr Ori | 
OHOH 0 万 0 万 
和 2 { Oa Or Ori Oz } B 
哈密 顿 动态 系统 的 第 二 个 重要 性 质 是 动态 系统 在 相 空间 中 体积 ， 这 被 称 为 Liouville 定 理 
(Liouville's Theorem) 。 换 名 话说 ， 那么 当 这 个 区 


域 在 哈密 顿 动态 方程 下 的 变化 时 ， 它 的 形状 可 能 会 改变 ， 但 是 它 的 体积 不 会 改变 。 可 以 这 样 证 
明 : 我 们 注意 到 流 场 ( 位 置 在 相 空间 的 变化 率 ) 为 


dz dr 
V= 11.01 
(于 实 ) 4 ) 





(11.60) 





这 个 场 的 散 度 为 零 ， 即 





. 0 dz 0 dr; 
srV =- dr Or; | 





a08 8 8H 9 
1 Sp 过 看 
现在 考虑 相 空间 上 的 联合 概率 分 布 ， 它 的 总 能 量 是 哈密 顿 函数 ， 即 概率 分 布 的 形式 为 
有 Gd1.63) 


ZH 


使 用 体系 的 不 变性 和 恕 的 守恒 性 ， 可 以 看 到 哈密 顿 动 态 系 统 会 使 得 p(z,7) 保 持 不 变 。 可 以 这 样 
证 明 : 考虑 相 空 间 的 一 个 小 区 域 ， 区 域 中 五 近似 为 常数 。 如 果 我 们 跟踪 一 段 有 限时 间 内 的 哈密 
顿 方 程 的 变化 ， 那 么 这 个 区 域 的 体积 不 会 发 生 改 变 ， 从 而 这 个 区 域 的 五 的 值 不 会 发 生 改 变 ， 因 
此 概率 密度 (只 是 且 的 通 数 ) 也 不 会 改变 。 

虽然 五 是 不 变 的 ， 但 是 > 和 ”会 发 生变 换 ， 因 此 通过 在 一 个 有 限 的 时 间 间 隔 上 对 哈密 顿 动 态 系 
统 积分 ， 我 们 就 可 以 让 z 以 一 种 系统 化 的 方式 发 生 较 大 的 变化 ， 避 免 了 随机 游 走 的 行为 。 

然而 ， 哈 密 顿 动态 系统 的 变化 对 P(z,) 的 采样 不 具有 各 态 历经 性 ， 因 为 巨 的 值 是 一 个 常数 。 
为 了 得 到 一 个 具有 各 态 历 经 性 的 采样 方法 ， 我 们 可 以 在 相 空间 中 引入 额外 的 移动 ， 这 些 移动 会 
改变 万 的 值 ， 同 时 也 保持 了 概率 分 布 p(z, 7) 的 不 变性 。 达 到 这 个 目标 的 最 简单 的 方式 是 将 7 的 值 
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替换 为 一 个 从 以 z 为 条 件 的 概率 分 布 中 抽取 的 样本 。 这 可 以 被 看 成 吉 布 斯 采样 的 步骤 ， 因 此 根据 
11.3 节 ,我 们 看 到 这 也 使 得 所 求 的 概率 分 布 保持 了 不 变性 。 注 意 ，z 和 7 在 概率 分 布 p(z,7) 中 是 
独立 的 ， 我 们 看 到 条 件 概率 分 布 plr | z) 是 高 斯 分 布 ， 从 中 我 们 可 以 很 容易 地 进行 采样 。 

在 这 种 方法 的 一 个 实际 应 用 中 ， 我 们 必须 解决 计算 哈密 顿 方程 的 数值 积分 的 问题 。 这 会 引入 
一 些 数值 的 误差 ， 因 此 我 们 要 设计 一 种 方法 来 最 小 化 这 些 误差 产生 的 影响 。 事 实 上 ， 可 以 证 
明 ， 能 够 在 Liouville 定 理 仍然 精确 成 立 的 条 件 下 ， 对 积分 方法 进行 修改 。 这 个 性 质 在 11.5.2 节 讨 
论 混 合 蒙特 卡 罗 算 法 时 很 重要 。 完 成 这 件 事 的 一 种 方法 是 蛙 跳 (leapfrog) 离散 化 。 这 种 方法 使 
用 下 面 的 公式 对 位 置 变量 和 动量 变量 的 离散 时 间 近 似 ? 和 7 进行 交替 地 更 新 。 

















i (r+ §) =%(") -$F 0) (1.69 
S(r+e)=%(") + (r+5) (11.65) 
(r+e) = (rT 5) oT (2(r Fe) (11.60) 





我 们 看 到 ， 这 种 方法 对 动量 变量 的 更 新 形式 是 半 步 更 新 ， 步 长 为 5， 接 着 是 对 位 置 变量 的 整 步 更 
新 ， 步 长 为 eE， 然 后 是 对 动量 变量 的 第 二 个 半 步 更 新 。 如 果 我 们 连续 地 使 用 几 次 蛙 跳 ， 那 么 可 以 
看 到 ， 对 动量 变量 的 半 步 更 新 可 以 结合 到 步 长 为 的 整 步 更 新 中 。 于 是 ， 位 置 变量 的 更 新 和 动量 
变量 的 更 新 互相 之 间 以 蛙 跳 的 形式 结合 。 为 了 将 动态 系统 跪 进 一 个 时 间 间 隔 r， 我 们 需要 进 
行 5 个 步骤 。 对 连续 时 间 动 态 系统 的 离散 化 近似 引入 的 误差 会 在 极限 e 一 0 的 情况 下 趋 于 零 ， 假 
设 函 数 忆 (Z) 是 光滑 的 。 然 而 ， 对 于 实际 应 用 中 使 用 的 一 个 非 零 的 e， 一 些 保留 的 误差 仍然 会 存 
在 。 我 们 会 在 11.5.2 节 看 到 在 混合 蒙特 卡 罗 算 法 中 ， 这 些 误差 的 影响 如 何 被 消除 。 

总 结 一 下 ， 哈 密 顿 动力 学 方法 涉及 到 交替 地 进行 一 系列 蛙 跳 更 新 以 及 根据 动量 变量 的 边缘 分 
布 进行 重新 采样 。 

注意 ， 与 基本 的 Metropolis 方 法 不 同 ， 哈 密 顿 动力 学 方法 能 够 利用 对 数 概率 分 布 的 梯度 信息 
以 及 概率 分 布 本 身 的 信息 。 在 函数 最 优化 领域 有 一 个 类 似 的 情形 。 大 多 数 可 以 得 到 梯度 信息 的 
情况 下 ， 使 用 哈密 顿 动 力学 方法 是 很 有 优势 的 。 非 形式 化 地 说 ， 这 种 现象 是 由 于 下 面 的 事实 造 
成 的 : 在 DD 维 空间 中 ， 与 计算 函数 本 身 的 代价 相 比 ， 计 算 梯度 所 带 来 的 额外 的 计算 代价 通常 是 
一 个 与 D 无 关 的 固定 因子 。 而 与 浮 数 本 身 只 能 传递 一 条 信息 相 比 ，D 维 梯度 向 量 可 以 传递 D 条 信 
息 。 


VD 


11.5.2 ”混合 蒙特 卡 罗 方 法 

正如 我 们 在 前 一 节 讨 论 的 那样 ， 对 于 一 个 非 零 的 步 长 ce， 蛙 跳 算 法 的 离散 化 会 在 哈密 顿 动 力 
学 方程 的 积分 过 程 中 引入 误差 。 混 合 蒙 特 卡 罗 (hybrid Monte Carlo) (Duane et al., 1987; Neal, 
1996) 将 哈密 顿 动态 系统 与 Metropolis 算 法 结合 在 一 起 ， 因 此 消除 了 与 离散 化 过 程 关联 的 任何 偏 
差 。 
具体 来 说 ， 算 法 使 用 了 一 个 马尔 科 夫 链 ， 它 由 对 动量 变量 7 的 随机 更 新 以 及 使 用 蛙 跳 算 
法 对 哈密 顿 动态 系统 的 更 新 交替 组 成 。 在 每 次 应 用 蛙 跳 算 法 之 后 ， 基 于 哈密 顿 函 数 瑟 的 
值 ， 确 定 Metropolis 准 则 ， 确 定 生成 的 候选 状态 被 接受 或 者 拒绝 。 因 此 ， 如 果 (z,7) 是 初始 状 
态 ，(z*,7”) 是 蛙 跳 积分 后 的 状态 ， 那 么 候选 状态 被 接受 的 概率 为 


min(1, exp{ H(z,7) — H(z”,r”)}) (11.67) 


如 果 蛙 跳 积 分 完美 地 模拟 了 哈密 顿 动 态 系 统 ， 那 么 每 个 这 种 候选 状态 都 会 自动 地 被 接受 ， 因 
为 互 的 值 会 保持 不 变 。 由 于 数值 误差 ， 互 的 值 有 时 可 能 会 减 小 ， 因 此 我 们 希望 Metropolis 准 则 将 
这 种 效果 引发 的 任何 偏差 都 消除 ， 并 且 确 保 得 到 的 样本 确实 是 从 所 需 的 概率 分 布 中 抽取 的 。 为 
了 完成 这 件 事 ， 我 们 需要 确保 对 应 于 蛙 跳 积分 的 更 新 方程 满足 细节 平衡 (11.40) 。 通 过 按照 下 
面 的 方式 修改 蛙 跳 方法 ， 这 个 目标 很 容易 实现 。 

在 开始 峙 跳 积 分 序列 之 前 ， 我 们 等 概率 地 随机 选择 是 沿 着 时 间 向 前 的 方向 积分 〈 步 长 为 e) 
还 是 沿 着 时 间 向 后 的 方向 积分 〈 步 长 为 -=e) 。 我 们 首先 注意 到 ， 蛙 跳 积分 方法 (11.64) 、 
(11.65) 和 “(11.66) 是 时 间 可 翻转 的 ， 即 也 步 使 用 步 长 为 -的 积分 会 抵消 二 步 使 用 步 长 为 的 积 
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/ 
Zi 人 


图 11.14: 蛙 跳 算法 (11.64) 到 (11.66) 中 的 每 一 步 修 改 位 置 变 量 z 或 者 动量 变量 7; 中 的 一 个 。 由 于 对 一 
个 变量 的 修改 只 是 另 一 个 变量 的 函数 ， 因 此 相 空 间 的 任意 区 域 在 形变 时 不 会 改变 体积 。 














分 。 接 下 来 我 们 证 明 蛙 跳 积分 精确 地 保持 了 相 空 间 的 体积 不 变性 。 这 是 因为 ， 蛙 跳 方 法 中 的 每 
一 步 对 或 者 7; 的 更 新 都 只 是 另 一 个 变量 的 函数 。 如 图 11.14 所 示 ， 这 个 现象 产生 的 效果 是 将 相 
空间 的 一 个 区 域 进行 形变 而 不 改变 它 的 体积 。 

最 后 ， 我 们 使 用 这 些 结果 证 明细 市 平衡 是 成 立 的。 考虑 相 空 间 的 一 个 小 区 域 尺 ， 它 在 L 次 步 
长 为 e 的 蛙 跳 迭代 序列 之 后 被 映射 到 了 区 域 避 。 使 用 在 蚌 跳 迭代 下 的 体积 的 不 变性 ， 我 们 看 到 如 
果 尺 的 体积 为 5 ， 那 么 尺 ' 的 体积 也 是 。 如 果 我 们 从 概率 分 布 (11.63) 中 选择 一 个 初始 点 ， 然 后 
使 用 工 次 蛙 跳 进行 更 新 ， 那 么 从 区 域 尺 转移 到 尺 的 概率 为 





exp(—H(R))VS min{1,exp(H(R) — H(R))} (11.68) 
HH 

其 中 ， 因 子 3 来 自 于 选择 用 一 个 正 的 步 长 而 不 是 负 的 步 长 进行 积分 的 概率 。 类 似 地 ， 从 区 
域 尺 开始 ， 沿 着 时 间 的 反方 向 回 到 区 域 尺 的 概率 为 


exp(—H(R))SV3 min{1,exp(H(R') — H(R))} (11.69) 
H 

很 容易 看 到 ， 两 个 概率 (11.68) 和 (11.69) 是 相等 的 ， 因 此 满足 细节 平衡 。 注 意 ， 这 个 证 明 忽 
略 了 区 域 尺 和 RR 之 间 有 重 辣 的 情况 ， 但 是 很 容易 进行 推广 使 其 适用 于 这 种 存在 重 闭 的 情形 。 

不 难 构 造 蛙 跳 算法 在 有 限 次 迭代 之 后 返回 起 始点 的 例子 。 在 这 种 情况 下 ， 每 次 蛙 跳 迭代 之 前 
对 动量 值 的 随机 替换 对 确保 各 态 历 经 性 是 不 充分 的 ， 因 为 位 置 变量 永远 不 会 被 更 新 。 通 过 在 晨 
跳 积 分 之 前 随机 地 从 某 个 小 区 间 中 选择 步 长 的 大 小 ， 这 种 现象 很 容易 避免 。 

通过 考察 混合 蒙特 卡 罗 算 法 在 多 元 高 斯 分 布 上 的 应 用 ， 我 们 可 以 更 深刻 地 理解 算法 的 行为 。 
为 了 方便 ， 考 虑 具有 独立 分 量 的 高 斯 分 布 p(z)， 它 的 哈密 顿 函数 为 


1 1 1 
2 2 


2 








我 们 的 结论 对 于 分 量 之 间 具 有 相关 性 的 高 斯 分 布 同样 适用 ， 因 为 混合 蒙特 卡 罗 算 法 具有 旋转 不 
变性 。 在 蛙 跳 积分 阶段 ， 每 对 相 空 间 变 量 %%, "独立 变化 。 然 而 ， 对 候选 样本 点 接受 或 是 拒绝 基 
于 的 是 五 的 值 ， 它 依赖 于 所 有 变量 的 值 。 因 此 ， 任 何 变 量 的 一 个 较 大 的 积分 误差 会 产生 一 个 较 
高 的 拒绝 概率 。 为 了 让 离散 蛙 跳 积分 对 真实 的 连续 时 间 动 态 系 统 产生 一 个 较 好 的 近似 ， 有 必要 
让 蛙 跳 积 分 的 标 度 e 小 于 势 通 数 变 化 的 最 短 的 长 度 标 度 。 这 由 0; 的 最 小 值 控 制 ， 我们 将 其 记 
作 cmin。 回 忆 一 下 ， 混 合 蒙特 卡 罗 算 法 中 的 峙 跳 积 分 的 目标 是 在 相 空 间 中 移动 较 大 的 距离 到 达 
新 状态 ， 这 个 新 状态 与 初始 状态 相对 独立 ， 同 时 还 能 达到 较 高 的 接受 率 。 为 了 实现 这 个 目标 ， 
蛙 跳 积分 必须 连续 进行 多 次 迭代 ， 迷 代 的 次 数 是 gmax/omin 的 量 级 。 

相反 ， 考 虑 之 前 讨论 过 的 一 个 简单 的 Metropolis 算 法 的 行为 ， 它 具有 各 向 同性 的 高 斯 提议 分 
布 ， 方差 为 。 为 了 避免 高 拒绝 率 ，s 的 值 必须 设置 为 omin 的 量 级 。 这 样 ， 对 状态 空间 的 探索 通 
过 随机 游 走 的 方式 进行 ， 达 到 近似 独立 的 状态 所 需 的 步骤 数 是 (omax /omin)? 量 级 的 。 
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11.6 ”估计 划分 函数 


正如 我 们 已 经 看 到 的 ， 本 章 中 讨论 的 大 部 分 采样 算法 只 需要 概率 分 布 的 函数 形式 ， 忽 略 一 个 
可 乘 的 常数 。 因 此 ， 如 果 我 们 有 


和 元 a (11.71) 


那么 为 了 从 p(z) 中 采样 ， 归 一 化 常数 Zp 的 值 (也 被 称 为 划分 函数 ) 是 不 需要 的 。 然 而 ， 关 
于 Zp 的 信息 对 于 贝 叶 斯 模型 比较 是 有 用 的 ， 因 为 它 表 示 模 型 证 据 ( 即 观测 数据 能 够 生成 
模型 的 概率 ) ， 因 此 我 们 对 它 的 值 如 何 得 到 很 感 兴趣 。 我 们 假设 在 z 的 状态 空间 中 ， 对 函 
数 exp( 一 忆 (z)) 求 和 或 积分 是 不 可 行 的 。 

对 于 模型 比较 来 说 ， 我 们 所 需 的 实际 是 两 个 模型 的 划分 函数 的 比值 。 将 这 个 比值 与 先 验 概率 
的 比值 相 乘 可 以 得 到 后 验 概率 的 比值 。 之 后 可 以 用 这 个 比值 来 进行 模型 选择 或 者 模型 平均 。 
0 
为 G(z)， 即 





Zp _ Dsexp(-B(z)) 
和“ Texp(-G(z)) 
Ds exp(—E(z) + G(2)) exp(-G(2)) 





>,z exp(—G(z)) (11.72) 
= Ec(z)[exp(—E + G)] 


区 > exp(—B(zO) + G(z)) 
其 中 {z 中 } 是 从 pc(z) 定 义 的 概率 分 布 中 抽取 的 样本 。 如 果 概 率 分 布 pa 的 划分 函数 可 以 解析 地 计 
算 ， 例 如 它 是 一 个 高 斯 分 布 ， 那么 Zz 的 绝对 值 可 以 得 到 。 

如 果 重 要 采样 分 布 pa 很 好 地 匹配 概率 分 布 pp， 即 比值 pp/pc 变 化 不 大 ， 那 么 这 种 方法 会 产 
生 准 确 的 结果 。 在 实际 应 用 中 ， 对 于 本 书 中 考察 的 复杂 的 模型 ， 我 们 无 法 找到 一 个 可 以 很 容易 
地 解析 计算 的 重要 采样 分 布 。 

于 是 ， 另 一 种 方法 是 使 用 从 马尔 科 夫 链 中 得 到 的 样本 来 定义 重要 采样 分 布 。 如 果 马 尔 科 夫 链 
的 转移 概率 为 T(z, z/)， 样 本 集合 为 z 山 ,.…… ,zt)， 那 么 采样 分 布 可 以 写成 

















元 el Te 大 (1.73) 
这 可 以 直接 应 用 于 公式 (11.72) 。 
计算 两 个 划分 函数 的 比值 的 方法 需要 对 应 的 概率 分 布 较 好 地 匹配 。 如 果 我 们 希望 找到 一 个 复 
杂 的 概率 分 布 的 划分 函数 的 绝对 的 值 ， 那 么 这 是 一 个 很 大 的 问题 ， 因 为 只 有 对 于 相对 简单 的 概 
率 分 布 才能 够 直接 计算 划分 函数 ， 因 此 尝试 直接 估计 划分 函数 的 比值 是 无 法 完成 的 。 使 用 链 
(chaining) 方法 ， 这 个 问题 可 以 解决 (Neal, 1993; Barber and Bishop, 1997) 。 这 种 方法 涉及 到 
连续 引入 中 间 分 布 p2,.…. ,pM-1， 这 些 分 布 是 在 我 们 可 以 计算 归 一 化 系数 和 1 的 简单 分 布 p1(z) 和 
所 求 的 复杂 概率 分 布 py(z) 之 间 进 行 的 内 插 。 于 是 我 们 有 
Zr ZU Zu 
Z1 ZiZLs Zui 
其 中 ， 中 间 的 比值 可 以 使 用 蒙特 卡 罗 算 法 进行 确定 ， 与 之 前 讨论 的 一 样 。 一 种 建立 中 间 系 统 序 
列 的 方法 是 使 用 一 个 包含 连续 参数 0 < a < 1 的 势 函 数 ， 在 两 个 概率 分 布 之 间 进 行内 插 ， 即 
Ea(z) = (1 — a)Bi(z) 十 aPMr(z) (11.75) 
如 果 公 式 (11.74) 中 的 中 间 比 值 使 用 蒙特 卡 罗 算 法 得 到 ， 那 使 用 一 个 单一 的 马尔 科 夫 链 可 能 
相对 于 每 个 比值 都 重新 设置 一 个 马尔 科 夫 链 的 方式 可 能 更 高 效 。 在 这 种 情况 下 ， 马 尔 科 夫 链 初 
始 时 设置 为 系统 p1， 然 后 在 某 个 合适 的 迷 代 次 数 之 后 ， 移 到 序列 中 的 下 一 个 概率 分 布 。 然 而 需 
要 注意 的 是 ， 系 统 必须 在 每 个 阶段 保持 与 均衡 分 布 接近 。 





(11.74) 
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22 


Z1 


图 11.15: 两 个 变量 z1 和 22 上 的 概率 分 布 ， 它 在 阴影 区 域 上 是 均匀 分 布 ， 在 其 他 地 方 概率 为 零 。 


H 过 


化 


图 11.16: 涉及 到 一 个 高 斯 观测 变量 z 的 图 模型 ，z 的 先 验 概率 分 布 的 均值 为 4， 精 度 为 7。 


11.7 练习 


(11.1) (*) 证 明 ， 公式 (11.2) 定义 的 样本 估计 f 的 均值 为 E[f]， 方差 由 (11.3) 给 定 。 

(11.2) (*) 假设 z 是 一 个 随机 变量 ， 服 从 (0, 1) 上 的 均匀 分 布 ， 我 们 使 用 y = h-1(z) 对 z 进 行 
变换 ， 其 中 hy) 由 (11.6) 定义 。 证 明 ，y 的 分 布 为 p(y)。 

(11.3) (*) 给 定 (0, 1) 上 均匀 分 布 的 随机 变量 z， 找 到 一 个 变换 y = f(z)， 使 得 y 是 由 公式 
(11.8) 给 出 的 柯 西 分 布 。 

(11.4) GY) 假设 和 4 和 纪 在 单位 贺 上 均匀 分 布 ， 如 图 11.3 所 示 ， 并 且 我 们 使 用 公式 (11.10) 
和 “(11.11) 进行 变量 替换 。 证 明 (ywi, 加 ) 服 从 公式 (11.12) 的 概率 分 布 。 

(11.5) (*) 令 z 是 一 个 服从 高 斯 分 布 的 万 维 随 机 变量 ， 高 斯 分 布 的 均值 为 零 ， 协 方差 矩阵 
是 单位 矩阵 ， 并 且 假设 正定 对 称 和 矩阵 殖 具有 Cholesky 分 解 习 = LL ”， 其 中 工 是 下 三 角 和 矩阵 ( 即 
主 对 角 线 上 方 的 元 素 全 部 为 零 ) 。 证 明 ， 变 量 y = 1 十 Lz 服从 高 斯 分 布 ， 均 值 为 hn， 协 方差 
为 台 。 这 提供 了 使 用 来 自 零 均值 单位 方差 的 一 元 高 斯 分 布 的 样本 生成 一 般 的 多 元 高 斯 分 布 的 方 
法 。 

(11.6) (**) 本 练习 中 ， 我 们 更 加 详细 地 说 明 ， 拒 绝 采 样 确实 从 所 需 的 概率 分 布 p(z) 中 采 
样 。 假 设 提议 分 布 是 g(z)， 证 明 样本 值 z 被 接受 的 概率 为 恕 入， 其 中 5 是 任意 的 未 归 一 化 的 分 
布 ， 正比 于 p(z)， 常 数 k 被 设置 为 确保 kq(z) > 5(z) 对 于 所 有 z 成 立 的 最 小 值 。 注 意 ， 抽 取 z 值 的 
概率 等 于 从 d(z) 中 抽取 那个 值 的 概率 乘 以 已 知 它 被 抽取 的 条 件 下 接受 这 个 值 的 概率 。 使 用 这 一 
点 ， 以 及 概率 的 加 和 规则 和 乘积 规则 ， 写 出 z 上 的 概率 分 布 的 归 一 化 形式 ,证 明 它 等 于 p(z)。 

(11.7) (*) 假设 y 服 从 区 间 [0, 1] 上 的 均匀 分 布 。 证 明 变 量 z = btany 十 c 服 从 (11.16) 给 出 
的 柯 西 分 布 。 

(11.8) (*) 使 用 连续 性 和 归 一 化 的 要 求 ， 确 定 用 于 可 调节 拒绝 采样 的 信封 分 布 (11.17) 
的 系数 应 。 

(11.9) (x) 通过 使 用 11.1.1 节 讨论 的 从 单一 的 指数 分 布 中 采样 的 方法 ， 设 计 一 个 从 分 段 指 
数 分 布 (11.17) 中 采样 的 算法 。 

(11.10) (*) 证 明 ， 由 公式 (11.34) 、 (11.35) 和 (11.36) 定义 的 整数 上 的 简单 随机 游 走 
具有 性 质 E[(z 中 )?] = 下 [(z(-0)2] 十 1/2， 从 而 根据 归纳 法 ， 具 有 性 质 E[(z 中 )?] = 7/2。 

(11.11) (**) 证 明 11.3 节 讨论 的 吉 布 斯 采样 算法 满足 (11.40) 定义 的 细节 平衡 性 质 。 

(11.12) (*) 考虑 图 11.15 所 示 的 概率 分 布 。 讨 论 标准 的 吉 布 斯 采样 对 于 这 个 分 布 是 否 具有 
名 态 历经 性 ， 是 否 可 以 正确 地 从 这 个 分 布 中 采样 。 
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(113) (YY) 考虑 图 1116 所 示 的 简单 的 三 结 点 图 其 中 观测 结 点 z 是 一 个 
高 斯 分 布 V(z | jy,7  )， 均 值 为 /， 精 度 为 r 假设 均值 和 精度 的 边缘 概率 分 布 
为 NA | Ho so0) 和 Gam(7 | a,5)， 其 中 Gam(: | ) 表 示 一 个 Gamma 分 布 。 写 出 为 了 将 吉 布 斯 采样 
方法 应 用 到 后 验 概率 分 布 p(U,7 | x)， 所 需 的 条 件 构 率 分 布 p(y | x,7) 和 p(T | z,4) 的 表达 式 。 

(11.14) ”(*) 验证 过 松弛 更 新 (11.50) 会 得 到 均值 为 h;、 方 差 为 of 的 值 2。 公 式 (11.50) 
中 ，%# 的 均值 为 1;， 方 差 为 0;，v 的 均值 为 零 ， 方 差 是 单位 方差 。 

(11.15) (*) 使 用 公式 (11.56) 和 “11.57) ， 证 明 哈 密 顿 方程 (11.58) 等 价 于 (11.53) 。 
类 似 地 ,使 用 (11.57) 证 明 (11.59) 等 价 于 (11.55) 。 

(11.16) (*) 通过 使 用 (11.56) 、 (11.57) 和 “(11.63) ， 证 明 条 件 概 率 分 布 p(7 | z) 是 一 
个 高 斯 分 布 。 

(11.17) (*) 验证 两 个 概率 (11.68) 和 “(11.69) 是 相等 的 ， 从 而 细节 平衡 对 于 混合 蒙特 卡 
罗 算法 成 立 。 
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12 ”连续 潜在 变量 


在 第 ?9 章 中 ， 我 们 讨论 了 具有 离散 潜在 变量 的 概率 模型 ， 例 如 高 斯 混合 模型 。 我 们 现在 研究 
某 些 潜在 变量 或 者 全 部 潜在 变量 为 连续 变量 的 模型 。 研 究 这 种 模型 的 一 个 重要 的 动机 是 许多 数 
据 集 具有 下 面 的 性 质 : 数据 点 几乎 全 部 位 于 比 原始 数据 空间 的 维度 低 得 多 的 流 形 中 。 为 了 说 明 
为 什么 会 出 现 这 种 现象 ， 考 虑 一 个 人 造 的 数据 集 ， 这 个 数据 集 将 一 个 64 x 64 的 灰 度 图 像 表 
示 的 手写 数字 机 入 到 一 个 100 x 100 的 更 大 的 图 像 中 ， 用 灰 度 值 为 零 的 像素 (对 应 于 白色 像 
素 ) 填充 ， 并 且 数 字 的 位 置 和 方向 被 随机 改变 ， 如 图 12.1 所 示 。 每 个 生成 的 图 像 都 可 以 表示 
为 100 x 100 = 10, 000 维 数据 空间 内 的 一 个 点 。 然 而 ， 对 于 这 种 图 像 的 数据 集 ， 只 有 三 个 变化 的 
自由 度 (degrees of freedom) ， 对 应 于 垂直 平移 、 水 平平 移 和 旋转 。 于 是 ， 数 据点 会 位 于 数据 
空间 的 一 个 子 空 间 中 ， 它 的 本 质 维度 (intrinsic dimensionality) 等 于 3。 注 意 ， 这 个 流 形 是 非 线 
性 的 ， 因 为 例如 如 果 我 们 把 数字 移 过 一 个 特定 的 像素 ， 那 么 像素 值 会 从 0〈 白 色 ) 变 为 1 ( 黑 
色 ) ， 然 后 再 回 到 0， 这 显然 是 数字 位 置 的 一 个 非 线 性 函数 。 在 这 个 例子 中 ， 平 移 和 旋转 变量 是 
潜在 变量 ， 因 为 我 们 值 观测 到 图 像 向 量 ， 不 知道 创建 它们 所 使 用 的 平移 或 者 旋转 变量 。 

对 于 真实 的 手写 数字 图 像 数 据 ， 会 存在 另外 一 个 自由 度 ， 这 个 自由 度 产 生 于 图 像 的 缩放 。 并 
且 还 会 存在 更 多 的 自由 度 ， 这 些 自由 度 与 更 加 复杂 的 形变 有 关 ， 这 些 复杂 的 形变 来 自 一 个 人 的 
各 次 书写 之 间 的 变化 ， 以 及 不 同人 之 间 的 书写 风格 的 差异 。 尽 管 这样 ， 这 种 自由 度 与 数据 集 的 
维度 相 比 仍然 很 小 。 

另 一 个 例子 来 源 于 石油 流 数据 集 ， 其 中 〈 对 于 给 定 的 天 然 气 、 水 、 石 油 的 几何 配置 ) 只 有 两 
个 自由 度 ， 对 应 于 管道 中 石油 的 比例 和 硕 的 比例 (之 后 就 可 以 确定 天 然 气 的 比例 ) 。 虽 然 数据 
空间 由 12 个 度量 组 成 ,但 是 一 组 数据 点 会 近似 位 于 这 个 空间 内 的 一 个 二 维 流 形 当中 。 在 这 种 情 
况 下 ， 流 形 由 几 个 不 同 的 片段 组 成 ， 对 应 于 不 同 的 流 的 形式 ， 每 一 个 片段 都 是 一 个 〈 带 有 噪声 
的 ) 连续 二 维 流 形 。 如 果 我 们 的 目标 是 数据 压缩 ， 或 者 对 概率 密度 建 模 ， 那 么 利用 这 个 流 形 结 
构 是 很 有 用 的 。 

在 实际 应 用 中 ， 数 据点 不 会 被 精确 限制 在 一 个 光滑 的 低 维 流 形 中 ， 我 们 可 以 将 数据 点 关于 流 
形 的 偏 移 看 做 噪声 。 这 就 自然 地 引出 了 这 种 模型 的 生成 式 观点 ， 其 中 我 们 首先 根据 某 种 潜在 变 
量 的 概率 分 布 在 流 形 中 选择 一 个 点 ， 然 后 通过 添加 噪声 的 方式 生成 观测 数据 点 。 噪 声 服从 给 定 
潜在 变量 下 的 数据 变量 的 某 个 条 件 概 率 分 布 。 

最 简单 的 连续 潜在 变量 模型 对 潜在 变量 和 观测 变量 都 作出 了 高 斯 分 布 的 假设 ， 并且 使 用 了 观 
测 变 量 对 于 潜在 变量 状态 的 线性 高 斯 依赖 关系 。 这 就 引出 了 一 个 著名 的 技术 一 一 主 成 分 分 析 
(PCA) 的 概率 表示 形式 ， 也 引出 了 一 个 相关 的 模型 ， 被 称 为 因子 分 析 。 

本 章 中 ,我们 首先 介绍 标准 的 、 非 概率 的 PCA 方 法 ， 然 后 我 们 会 说 明 ， 当 求解 线性 高 斯 潜在 
变量 模型 的 一 种 特别 形式 的 最 大 似 然 解 时 ，PCA 如 何 自然 地 产生 。 这 种 概率 形式 的 表示 方法 会 
带 来 很 多 好 处 ， 例 如 在 参数 估计 时 可 以 使 用 EM 算法 ， 对 混合 PCA 模 型 的 推广 ， 以 及 主 成 分 的 数 
量 可 以 从 数据 中 自动 确定 的 贝 叶 斯 公式 。 最 后 ， 我 们 简短 地 讨论 潜在 变量 概念 的 几 个 推广 ， 使 
得 潜在 变量 的 概念 不 局 限于 线性 高 斯 假设 。 这 种 推广 包括 非 高 斯 潜在 变量 ， 它 引出 了 独立 成 分 
分 析 (independent conponent analysis) 的 框架 。 这 种 推广 还 包括 潜在 变量 与 观测 变量 的 关系 是 
非 线 性 关系 的 模型 。 














12.1 主 成 分 分 析 


主 成 分 分 析 ， 或 者 称 为 PCA ， 是 一 种 被 广泛 使 用 的 技术 ， 应 用 的 领域 包括 维度 降低 、 有 损 数 
据 压 缩 、 特 征 抽取 、 数 据 可 视 化 (Jolliffe, 2002) 。 它 也 被 称 为 Karhunen-Losve 变 换 。 


323333 


图 12.1: 一 个 人 工 生成 的 数据 集 ， 以 手写 数字 图 像 为 输入 ,创建 出 多 个 副本 ， 每 个 副本 中 ， 数 字 都 在 一 个 
更 大 的 图 像 中 进行 了 一 个 随机 的 平移 和 旋转 。 每 个 生成 的 图 像 都 有 100 x 100 = 10, 000 个 像素 。 
































381 
wwaibbt.com DODDDDDOD 





TX1 


图 12.2: 主 成 分 分 析 寻 找 一 个 低 维 空间 ， 被 称 为 主子 平面 ， 用 紫色 的 线 表示 ， 使 得 数据 点 〈 红 点 ) 在 子 空 
间 上 的 正 交 投 影 能 够 最 大 化 投影 点 〈 绿 点 ) 的 方差 。PCA 的 另 一 个 定义 基于 的 是 投影 误差 的 平方 和 的 最 
小 值 ， 用 蓝 线 表示 。 


有 两 种 经 常 使 用 的 PCA 的 定义 ， 它 们 会 给 出 同样 的 算法 。PCA 可 以 被 定义 为 数据 在 低 维 线性 
空间 上 的 正 交 投影 ， 这 个 线性 空间 被 称 为 主子 空间 (principal subspace) ， 使 得 投影 数据 的 方差 
被 最 大 化 (Hotelling, 1933) 。 等 价 地 ， 它 也 可 以 被 定义 为 使 得 平均 投影 代价 最 小 的 线性 投影 。 
平均 投影 代价 是 指数 据点 和 它们 的 投影 之 间 的 平均 平方 距离 (Pearson, 1901) 。 正 交 投影 的 过 
程 如 图 12.2 所 示 。 我 们 依次 讨论 这 些 定 义 。 


12.1.1 最 大 方差 形式 


考虑 一 组 观测 数据 集 {zw}， 其 中 n = 1,.….,N， 因 此 zw 是 一 个 D 维 欧 几 里 得 空间 中 的 变量 。 
我 们 的 目标 是 将 数据 投影 到 维度 M < D 的 空间 中 ， 同 时 最 大 化 投影 数据 的 方差 。 现 阶段 ， 我 们 
假设 MM 的 值 是 给 定 的 。 稍 后 在 本 章 中 ， 我 们 会 研究 从 数据 中 确定 合适 的 MM 值 的 方法 。 

首先 ， 考虑 在 一 维 空间 (M = 1) 上 的 投影 。 我 们 可 以 使 用 DD 维 向 量 wi 定 义 这 个 空间 的 方 
向 。 为 了 方便 (并 且 不 失 一 般 性 ) ,我们 假定 选择 一 个 单位 向 量 ， 从 而 uf 了 wi = 1 (注意 ,我 们 
只 对 wi 的 方向 感 兴趣 ， 而 对 ul 本身 的 大 小 不 感 兴趣 ) 。 这 样 ， 每 个 数据 点 zn 被 投影 到 一 个 标量 
值 uf xz 上。 投影 数据 的 均值 是 uf 二， 其 中 ，z 是 样本 集合 的 均值 ， 形 式 为 


] 立 
元 二 一 》 zn (12.1) 
NR 
影 数据 的 方差 为 
六 D>_{uf zn — ulz} = ul Su (12.2) 
n=1 
其 中 3 是 数据 的 协 方差 矩阵 ， 定 义 为 
a _ 
S= 六 (wn 一 元 )(Zn 一 元 ) (12.3) 
7 一 | 


我 们 现在 关于 wi 最 大 化 投影 方差 uf Su1。 很 明显 ， 最 大 化 的 过 程 必须 满足 一 定 的 限制 来 防 
止 |uill 一 o0。 恰 当 的 限制 来 自 归 一 化 条 件 uf wa = 1。 为 了 强制 满足 这 个 限制 ， 我 们 引入 拉 格 
朗 日 乘 数 ， 记 作 和 Al ， 然 后 对 下 式 进行 一 个 无 限制 的 最 大 化 


ul Sui 十 XI(L 一 au) (12.4) 
通过 令 它 关于 ww1 的 导数 等 于 零 ， 我 们 看 到 驻 点 满足 
Sul 一 和 111 (12.5) 
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这 表明 一 定 是 3 的 一 个 特征 向 量 。 如 果 我 们 左 乘 wf ， 使 用 wf wa = 1， 我 们 看 到 方差 为 
ul Sul 一 Ai (12.0) 


因此 当 我 们 将 wi 设置 为 与 具有 最 大 的 特征 值 入 的 特征 向 量 相等 时 ， 方差 会 达到 最 大 值 。 这 个 特 
征 向 量 被 称 为 第 一 主 成 分 。 

我 们 可 以 用 一 种 增 量 的 方式 定义 额外 的 主 成 分 ， 方 法 为 : 在 所 有 与 那些 已 经 考虑 过 的 方向 正 
交 的 所 有 可 能 的 方向 中 ， 将 新 的 方向 选择 为 最 大 化 投影 方差 的 方向 。 如 果 我 们 考虑 性 维 投影 
空间 的 一 般 情 形 ， 那 么 最 大 化 投影 数据 方差 的 最 优 线性 投影 由 数据 协 方差 矩阵 3 的 M 个 特征 
向 量 w,... ,uv 定义 ， 对 应 于 M 个 最 大 的 特征 值 X, ..., 和 wy。 可 以 通过 归纳 法 很 容易 地 证 明 出 
来 。 

总 结 一 下 ， 主 成 分 分 析 涉 及 到 计算 数据 集 的 均值 2 和 协 方差 矩 阵 S$， 然 后 寻找 S 的 对 应 
于 MM 个 最 大 特征 值 的 VM 个 特征 向 量 。 寻 找 特 征 值 和 特征 向 量 的 算法 以 及 与 特征 向 量 分 解 相关 的 
定理 ， 可 以 参考 Golub and Van Loan (1996) 。 注 意 ， 计 算 一 个 D x D 和 矩阵 的 完整 的 特征 向 量 
分 解 的 代价 为 OD(D3)。 如 果 我 们 计划 将 我 们 的 数据 投影 到 前 M 个 主 成 分 中 ， 那 么 我 们 上 只 需 寻 
找 前 M 个 特征 值 和 特征 向 量 。 这 可 以 使 用 更 高 效 的 方法 得 到 ， 例 如 朝方 法 (power method ) 

(Golub and Van Loan, 1996) ， 它 的 时 间 复 杂 度 为 O(MD2) ， 或 者 我 们 也 可 以 使 用 EM 算法 。 


12.1.2 ”最 小 误差 形式 


我 们 现在 讨论 PCA 的 另 一 种 形式 ， 基 于 误差 最 小 化 的 投影 。 为 了 完成 这 一 点 ,我 们 引入 DD 维 
uf uy 一 057 (12.7) 





由 于 基 是 完整 的 ， 因 此 每 个 数据 点 可 以 精确 地 表示 为 基 向 量 的 一 个 线性 组 合 ， 即 
D 
Tn 一 QniUi (12.8) 
i=1 


其 中 ， 系 数 ami 对 于 不 同 的 数据 点 来 说 是 不 同 的 。 这 对 应 于 将 坐标 系 旋 转 到 了 一 个 由 {wi} 定 义 的 
新 坐标 系 ， 原 始 的 DD 个 分 量 {xni1,.…. ,znD} 被 检 换 为 一 个 等 价 的 集合 {Qn1,.… ,QanD}。 与 做 内 
庚 ， 然 后 使 用 单位 正 交 性 质 ， 我 们 有 arj = zw;， 因 此 不 失 一 般 性 ， 我 们 有 


D 
Zn = >》 (zw) ui (12.9) 
i=1 
然而 ， 我 们 的 目标 是 使 用 限定 数量 M < D 个 变量 的 一 种 表示 方法 来 近似 数据 点 ， 这 对 应 于 


在 低 维 子 空间 上 的 一 个 投影 。 不 失 一 般 性 ，M 维 线性 子 空间 可 以 用 前 MM 个 基 向 量 表示 ， 因 此 我 
们 可 以 用 下 式 来 近似 每 个 数据 点 zn 


M D 
jn = 》 zniui + bb biui (12.10) 
2 一 工 i=M+l 
其 中 {zn} 依赖 于 特定 的 数据 点 ， 而 {8i} 是 常数 ， 对 于 所 有 数据 点 都 相同 。 我 们 可 以 任意 选 


择 {ti}, {zni} 和 {5i;}， 从 而 最 小 化 由 维度 降低 所 引入 的 失真 。 作 为 失真 的 度量 ,我们 使 用 原始 数 
据点 与 它 的 近似 点 之 间 的 平方 距离 ， 在 数据 集 上 取 平 均 。 因 此 我 们 的 目标 是 最 小 化 


1 N 
ed 2 
> za — El (12.11) 
首先 考虑 关于 {zmwi} 的 最 小 化 。 消 去 2%， 令 它 关 于 zj; 的 导数 为 零 ， 然 后 使 用 单位 正 交 的 条 
件 ， 我 们 有 


ye 


Znj = PL (12.12) 
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其 中 j = 1,...,M。 类 似 地 ， 令 J 关于 46; 的 导数 等 于 零 ， 再 次 使 用 单位 正 交 的 关系 ， 我 们 有 
bj; 一 元 au (12.13) 


其 中 7 = M 十 1,.….,D。 如 果 我 们 消去 (12.10) 中 的 zwz 和 b;， 使 用 一 般 的 展开 式 (12.9) ， 我 们 
有 


D 
Zn — Kn = >， {(zn 一 元 ju]jau (12.14) 
i=M+1 





从 中 我 们 看 到 ， 从 zn 到 zn 的 位 移 向 量 位 于 与 主子 空间 垂直 的 空间 中 ， 因 为 它 是 {wi} 的 线性 组 
合 ， 其 中 i = M 十 1,...,D， 如 图 12.2 所 示 。 这 与 预期 相符 ， 因 为 投影 点 % 一 定位 于 主子 空间 
内 ， 但 是 我 们 可 以 在 那个 子 空间 内 自由 移动 投影 点 ， 因 此 最 小 的 误差 由 正 交 投影 给 出 。 

于 是 ,我 们 得 到 了 失真 度量 的 表达 式 ， 它 是 一 个 纯粹 的 关于 {wi} 的 函数 ， 形 式 为 








N 万 D 
1 
a (zfuw — Ts) = > ul Sui (12.15) 
n=1i=M+1 i=M+1 


剩 下 的 任务 是 关于 {ui}j 对 7 进行 最 小 化 ， 这 必须 是 具有 限制 条 件 的 最 小 化 ， 因 为 如 果 不 这 
样 ， 我 们 会 得 到 wi = 0 这 一 没有 意义 的 结果 。 限 制 来 自 于 单位 正 交 条 件 ， 并 且 正 如 我 们 将 看 到 
的 那样 ， 解 可 以 表示 为 协 方差 矩阵 的 特征 向 量 展开 式 。 在 考虑 一 个 形式 化 的 解 之 前 ， 让 我 们 试 
着 直观 地 考察 一 下 这 个 结果 。 考 虑 二 维 数据 空间 刀 = 2 以 及 一 维 主子 空间 M = 1 的 情形 。 我 们 必 
须 选 择 一 个 方向 wz 来 最 小 化 了 = wu3 Su ， 同 时 满足 限制 条 件 好 ws = 1。 使 用 拉 格 朗 日 乘 数 MX? 来 
强制 满足 这 个 限制 ， 我 们 考虑 最 小 化 


J 一 ul Sus 十 A2(1 于 Ul 2) (12.10) 


令 关 于 wz 的 导数 等 于 零 ， 我 们 有 Sus2 = 和 2u2， 从 而 uz 是 5 的 一 个 特征 癌 量 ， 且 特征 值 为 和 2。 
此 任何 特征 向 量 都 会 定义 失真 度量 的 一 个 驻 点 。 为 了 找到 J 在 最 小 值 点 处 的 值 ， 我 们 将 wz 的 解 
代 回 到 失真 度量 中 ， 得 到 J = 和 2。 于 是 ， 我 们 通过 将 wu2 选 择 为 对 应 于 两 个 特征 值 中 较 小 的 那个 
特征 值 的 特征 向 量 ， 可 以 得 到 J 的 最 小 值 。 因 此 ， 我们 应 该 将 主子 空间 与 具有 较 大 的 特征 值 的 
特征 向 量 对 齐 。 这 个 结果 与 我 们 的 直 党 相符 ， 即 为 了 最 小 化 平均 平方 投影 距离 ， 我 们 应 该 将 主 
成 分 子 空间 选 为 穿 过 数据 点 的 均值 并 且 与 最 大 方差 的 方向 对 齐 。 对 于 特征 值 相 等 的 情形 ， 任 何 
主 方向 的 选择 都 会 得 到 同样 的 J 值 。 

对 于 任意 的 D 和 任意 的 M < D， 最 小 化 J 的 一 般 解 都 可 以 通过 将 {wi} 选 择 为 协 方差 矩阵 的 特 
征 向 量 的 方式 得 到 ， 即 




















Sui 一 Nius (12.17) 
其 中 i = 1,.….,D， 并且 与 平常 一 样 ， 特 征 向 量 {wi} 被 选 为 单位 正 交 的 。 失 真 度量 的 对 应 的 值 为 


D 
I (12.18) 


i=M+l1 


这 就 是 与 主子 空间 正 交 的 特征 值 的 加 和 和。 于是， 我 们 可 以 通过 将 这 些 特征 向 量 选择 成 D 一 M 个 
最 小 的 特征 值 对 应 的 特征 向 量 ， 来 得 到 ,7 的 最 小 值 ， 因 此 定义 了 主子 空间 的 特征 向 量 是 对 应 
于 MM 个 最 大 特征 值 的 特征 向 量 。 

虽然 我 们 已 经 考虑 了 M < D 的 情形 ， 但 是 PCA 对 于 MM = D 的 情形 仍然 成 立 ， 这 种 情况 下 没 
有 维度 的 降低 ， 仅 仅 是 将 坐标 轴 旋 转 ， 与 主 成 分 对 齐 即 可 。 

最 后 ， 值 得 注意 的 时 ， 存 在 一 个 与 此 密切 相关 的 线性 维度 降低 的 方法 ， 被 称 为 典型 相关 分 析 
(canonical correlation analysis) ， 或 者 CCA (Hotelling, 1936; Bach and Jordan, 2002) 。PCA 操 
作 的 对 象 是 一 个 随机 变量 ， 而 CCA 考 虑 两 个 (或 者 更 多 ) 的 变量 ， 并 且 试 图 找到 具有 较 高 的 交 
又 相关 性 的 线性 子 空间 对 ， 从 而 在 一 个 子 空间 中 的 每 个 分 量 都 与 男 一 个 子 空间 的 一 个 分 量具 有 
相关 性 。 它 的 解 可 以 表示 为 一 般 的 特征 向 量 问题 。 
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图 12.3: 对 于 离线 手写 数字 数据 集中 的 数字 3 ， 图 中 给 出 了 均值 向 量 z 以 及 前 四 个 PCA 特 征 向 
量 w1,.…. ,Ww4 还 有 对 应 的 特征 值 。 蓝 色 对 应 于 正 值 ， 白 色 对 应 于 零 ， 黄 色 对 应 于 负 值 。 
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图 12.4: (@) 对 于 离线 手写 数字 数据 集 里 的 数字 3" 的 特征 值 谱 线 。(b) 丢 弃 的 特征 值 的 加 和 的 图 像 ， 它 表示 
将 数据 投影 到 MM 维 主 成 分 子 空间 中 引入 的 平方 和 失真 J。 


12.1.3 PCA 的 应 用 


我 们 通过 考虑 离线 手写 数字 数据 集 来 说 明 PCA 对 于 数据 压缩 的 应 用 ， 其 中 我 们 关注 与 数 
字 3 的 图 像 。 由 于 协 方差 矩阵 的 每 个 特征 向 量 是 原始 D 维 空间 的 一 个 向 量 ， 因 此 我 们 可 以 将 特 
征 向 量 表示 为 与 数据 点 具有 相同 大 小 的 图 像 。 图 12.3 给 出 了 前 四 个 特征 向 量 以 及 对 应 的 特征 值 。 
完整 的 特征 值 的 图 像 ， 按 照 降序 排序 ， 如 图 12.4(Q) 所 示 。 选 择 M 的 一 个 特定 的 值 造 成 的 失真 度 
量 ] 由 M 十 1 到 D 的 特征 值 的 求 和 给 出 。 对 于 不 同 的 M 值 ， 图 像 如 图 12.4(b) 所 示 。 

如 果 我 们 将 公式 (12.12) 和 “(12.13) 代入 (12.10) ， 我 们 可 以 写 出 对 数据 向 量 zz 的 PCA 近 
似 ， 形 式 为 


M D 
全 >》 (Zaai)ui 十 >， (ZT i) ui (12.19) 
i=1 i=M+1 
M 
一 元 十 (xT us 一 元 1 ai ai (12.20) 
i=1 
其 中 我 们 使 用 了 关系 
守 守 >》 (元 wi)u; (12.21) 
i=1 


这 个 关系 来 自 于 {ti} 的 完整 性 。 这 种 方法 表示 了 对 数据 集 的 一 个 压缩 ， 因 为 对 于 每 个 数据 点 ， 
我 们 将 忆 维 向 量 zn 替 换 为 M 维 向 量 ， 元 素 为 (zxuwi 一 天 :ui)。M 的 值 越 小 ， 压 缩 的 程度 越 大 。 
对 于 手写 数字 数据 集 里 的 数字 3 的 数据 点 ， 使 用 PCA 重 建 的 例子 如 图 12.5 所 示 。 
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图 12.5: 来 自 离 线 手写 数字 数据 集 的 原始 样本 ， 以 及 对 于 不 同 的 M 值 ， 保 留 M 个 主 成 分 得 到 的 PCA 重 建 。 
随 着 M 的 增加 ， 重 建 变 得 越 来 越 精确 。 当 M = D = 28 x 28 = 784 时 ， 会 得 到 一 个 完美 的 重建 。 
































主 成 分 分 析 的 另 一 个 应 用 是 数据 预 处理 。 在 这 种 情况 下 ， 目 标 不 是 维度 降低 ， 而 是 对 数据 集 
进行 变换 ， 使 得 数据 集 的 某 些 属性 得 到 标准 化 。 这 对 于 后 续 将 模式 识别 算法 成 功 应 用 于 数据 集 
来 说 很 重要 。 通 常 ， 当 原始 变量 使 用 不 同 的 单位 进行 测量 ， 或 者 变化 情况 相当 不 同 的 时 候 ， 我 
们 会 对 数据 集 进行 这 样 的 变换 。 例 如 ， 在 老 忠实 间歇 喷 凡 数据 集 里 ， 两 次 喷发 的 间隔 时 间 通 常 
要 比 喷 发 的 持续 时 间 大 若干 个 数量 级 。 当 我 们 将 开 均 值 算法 应 用 于 这 个 数据 集 时 ， 我 们 首先 对 
各 个 变量 进行 单独 的 重新 标 度 ， 使 得 每 个 变量 的 均值 为 零 ， 方 差 为 单位 方差 。 这 被 称 为 对 数据 
的 标准 化 (standardize) ， 并 且 标 准 化 的 数据 的 协 方差 矩阵 的 元 素 为 





1 过 (zni — i) (zw — 3) 
pij = 育 这 (12.22) 
其 中 0; 是 zi 的 标准 差 。 这 被 称 为 原始 数据 集 的 相关 性 矩阵 (correlation matrix) ， 具 有 下 面 的 性 
质 : 如 果 数 据 的 两 个 分 量 x; 和 x; 完全 相关 ， 那 么 pi;; = 1， 如 果 它 们 不 相关 ， 那 么 pi; = 0。 
然而 ， 使 用 PCA， 我 们 可 以 对 数据 进行 更 显著 的 归 一 化 ， 得 到 零 均 值 和 单位 方差 的 数据 ， 从 
而 不 同 的 变量 之 间 的 相关 性 关系 被 消除 。 为 了 完成 这 一 点 ， 我 们 首先 将 特征 向 量 方程 (12.17) 
写成 下 面 的 形式 





SU=UL (12.23) 


其 中 ,， 工 是 一 个 D x D 的 对 角 窍 阵 ， 元 素 为 A;,，U 是 一 个 D x D 的 正 交 和 矩阵 ， 列 为 wi;。 然 后 对 于 
每 个 数据 点 zn ， 我 们 定义 一 个 变换 ， 值 为 


yn = L232UT (gn, 一 天 (12.24) 
其 中 z 是 公式 (12.1) 定义 的 样本 均值 。 很 明显 ， 集 合 {y,} 的 均值 为 零 ， 协 方差 是 单位 矩阵 ， 因 


ey 


N N 
1 人 1 一 二 2 = 
ny7 二 一 L 2U’ (zn — HrTn— TT) UL 3 
2 Yan = 万 2 ( 外 ) (12.25) 


二 gg Tob i = 
一 了 2U-SUL 2=L 2LL 2 一 了 


这 个 操作 被 称 为 对 数据 的 白化 (whitening) 或 者 球形 化 (sphereing) 。 图 12.6 使 用 老 忠 实 间 向 喷 
泉 数据 说 明了 这 一 点 。 

将 PCA 与 41.4 节 讨论 的 Fisher 线 性 判别 分 析 进 行 对 比 是 很 有 趣 的 。 两 种 方法 都 可 以 看 成 线性 
维度 降低 的 例子 。 然 而 ，PCA 是 无 监督 的 ， 值 依赖 于 zn 的 值 ， 而 Fisher 线 性 判别 分 析 还 使 用 了 
类 别 标签 的 信息 。 图 12.7 给 出 的 例子 强调 了 这 个 区 别 。 

主 成 分 分 析 的 另 一 个 常见 应 用 是 数据 可 视 化 。 这 里 ， 每 个 数据 点 被 投影 到 二 维 (M = 2) 的 
主子 空间 中 ， 从 而 数据 点 zn 被 画 在 了 一 个 笛 卡 尔 坐 标 系 中 ， 坐 标 系 由 zz 和 zx ua 定义 ， 其 
中 1 和 w2 是 特征 向 量 ， 对 应 于 最 大 的 和 第 二 大 的 特征 值 。 对 于 石油 流 数据 集 ， 这 种 图 的 一 个 例 
子 如 图 12.8 所 示 。 
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图 12.6: 对 老 忠 实 间 多 喷泉 数据 集 进行 线性 预 处 理 的 效果 。 左 图 给 出 的 原始 的 数据 。 中 图 给 出 了 将 各 个 变 
量 标准 化 为 零 均值 单位 方差 的 结果 。 同 时 画 出 的 还 有 这 个 归 一 化 数据 集 的 主轴 ， 画 出 了 士 Xi/ 的 范围。 
右 图 给 出 了 对 数据 进行 白化 的 结果 ， 得 到 了 零 均 值 单 位 协 方差 的 数据 。 




















图 12.7: 用 于 线性 维度 降低 的 主 成 分 分 析 与 Fisher 线 性 判别 分 析 的 对 比 。 这 里 ， 数 据 位 于 二 维 空间 中 ， 属 
于 两 个 类 别 ， 用 红色 和 蓝 色 表示 。 数 据 要 被 投影 到 一 维 空间 中 。PCA 选 择 了 最 大 方差 的 方向 ， 由 紫色 
线 表示 ， 它 产生 了 严重 的 类 别 履 盖 。 而 Fisher 线 性 判别 分 析 考 虑 类 别 标签 ， 产 生 了 在 绿色 直线 上 的 投影 。 
这 种 投影 对 类 别 的 区 分 效果 要 好 得 多 。 


由 


























图 12.8: 石油 流 数据 的 可 视 化 ， 通 过 将 数据 投影 到 前 两 个 主 成 分 上 的 方式 实现 。 红 色 、 蓝 色 和 绿色 点 分 别 
对 应 “薄片 状 "、“ 同 质 状 " 和 “ 环 状 "的 石油 流 配置 。 
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12.1.4 高 维 数据 的 PCA 


在 主 成 分 分 析 的 一 些 应 用 中 ， 数 据点 的 数量 小 于 数据 空间 的 维度 。 例 如 ， 我 们 可 能 希望 
将 PCA 应 用 于 由 几 百 张 图 片 组 成 的 数据 集 ， 每 个 图 片 对 应 于 几 百 万 维 (对 应 于 图 像 中 每 个 像素 
的 三 个 颜色 值 ) 空间 中 的 一 个 向 量 。 注 意 ， 在 一 个 D 维 空间 中 ，N 个 数据 点 (N < D) 定义 了 
一 个 线性 子 空间 ， 它 的 维度 最 多 为 N - 1， 因 此 在 使 用 PCA 时 ， 几 乎 没有 M 大 于 一 1 的 数据 
点 。 实 际 上 ， 如 果 我 们 运行 PCA， 我 们 会 发 现 至 少 D 一 NN + 1 个 特征 值 为 零 ， 对 应 于 沿 着 数据 集 
的 方差 为 零 的 方向 的 特征 向 量 。 此 外 ,通常 的 寻找 D x D 和 矩阵 的 特征 向 量 的 算法 的 计算 代价 
为 OLD5)， 因 此 对 于 诸如 图 像 这 种 应 用 来 说 ， 直 接应 用 PCA 在 计算 上 是 不 可 行 的 。 

我 们 可 以 这 样 解 这 个 问题 。 首 先 ， 让 我 们 将 头 定义 为 (N x 刀 ) 维 中 心 数据 矩阵 ， 它 的 第 mn 行 
为 (zn 一 元 。 这 样 ， 协 方差 矩阵 (12.3) 可 以 写成 S = N-!XX 和 ,对 应 的 特征 向 量 方程 变 成 了 








1 
NX Xu = Nu (12.20) 


现在 ， 将 两 侧 左 乘 乏 ， 可 得 
XX (Xu) = Ni(Xui) (12.27) 


如 果 我 们 现在 定义 vi = Xw， 那 么 我 们 有 

XX = Xiui (12.28) 
它 是 N x N 和 矩阵 N-1IXX7 的 一 个 特征 向 量 方程 。 我 们 看 到 这 个 矩阵 与 原始 的 协 方差 矩阵 具有 相 
同 的 NV 一 1 个 特征 值 ， 原 始 的 协 方差 矩阵 本 身 有 额外 的 刀 一 NN + 1 个 值 为 零 的 特征 值 。 因 此 我 们 


可 以 在 低 维 空间 中 解决 特征 向 量 问 题 ， 计 算 代价 为 O(N3) 而 不 是 0(D3)。 为 了 确定 特征 向 量 ， 
我 们 将 公式 (11.28) 两 侧 乘 以 了 了， 可 得 


(RX'X) (XTwi) = NX wv;) (12.29) 


从 中 我 们 可 以 看 到 (入 wi;) 是 S 的 一 个 特征 向 量 ， 对 应 的 特征 值 为 A。 但 是 ， 需 要 注意 ， 这 些 特 
征 向 量 的 长 度 未 必 等 于 1。 为 了 确定 合适 的 归 一 化 ， 我 们 使 用 一 个 常数 来 对 ui x Xu; 进行 重新 
标 度 ， 使 得 |uil| = 1。 假 设 v; 的 长 度 已 经 被 归 一 化 ， 那 么 我 们 有 
1 
(NA 
总 结 一 下 ， 为 了 应 用 这 种 方法 ,我们 首先 计算 入 入 ， 然 后 找到 它 的 特征 向 量 和 特征 值 ， 之 后 
使 用 公式 (12.30) 计算 原始 数据 空间 的 特征 向 量 。 








Xiv; (12.30) 


12.2 ”概率 PCA 


前 一 节 讨论 的 PCA 的 形式 所 基于 的 是 将 数据 线性 投影 到 比 原始 数据 空间 维度 更 低 的 子 空间 
内 。 我 们 现在 说 明 ，PCA 也 可 以 被 视 为 概率 潜在 变量 模型 的 最 大 似 然 解 。PCA 的 这 种 形式 ， 被 
称 为 概率 PCA (probabilistic PCA) ， 与 传统 的 PCA 相 比 ， 会 带 来 如 下 几 个 优势 。 


。 概率 PCA 表 示 高 斯 分 布 的 一 个 限制 形式 ， 其 中 自由 参数 的 数量 可 以 受到 限制 ， 同 时 仍然 使 
得 模型 能 够 描述 数据 集 的 主要 的 相关 关系 。 


。 我 们 可 以 为 PCA 推 导 一 个 EM 算法 ， 这 个 算法 在 只 有 几 个 主要 的 特征 向 量 需要 求 出 的 情况 
下 ， 计 算 效 率 比 较 高 ， 并 且 避 免 了 计算 数据 协 方差 矩阵 的 中 间 步 又 。 

。 概率 模型 与 EM 的 结合 使 得 我 们 能 够 处 理 数据 集 里 缺失 值 的 问题 。 

。 概率 PCA 混 合 模型 可 以 用 一 种 有 理 有 据 的 方式 进行 形式 化 ， 并 且 可 以 使 用 EM 算法 进行 训 


练 。 
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图 12.9: 概率 PCA 模 型 的 生成 式 观点 的 说 明 ， 数 据 空间 为 二 维 ， 潜 在 空间 为 一 维 。 一 个 观测 数据 点 z 的 生 
成 方式 为 : 首先 从 潜在 变量 的 先 验 分 布 p(z) 中 抽取 一 个 潜在 变量 的 值 2， 然 后 从 一 个 各 向 同性 的 高 斯 分 布 
(用 红色 圆圈 表示 ) 中 抽取 一 个 z 的 值 ， 这 个 各 向 同性 的 高 斯 分 布 的 均值 为 w2 十， 协 方差 为 ?I。 绿 色 
椭圆 画 出 了 边缘 概率 分 布 p(x) 的 密度 轮廓 线 。 


， 概 率 PCA 构 成 了 PCA 的 贝 叶 斯 方法 的 基础 ， 其 中 主子 空间 的 维度 可 以 自动 从 数据 中 找到 。 


*， 似 然 函 数 的 存在 使 得 直接 与 其 他 的 概率 密度 模型 进行 对 比 成 为 可 能 。 相 反 ， 传 统 的 PCA 会 
给 接近 主子 空间 的 数据 点 分 配 一 个 较 低 的 重建 代价 ， 即 使 这 些 数 据点 的 位 置 距离 训练 数据 


任意 远 。 
"概率 PCA 可 以 被 用 来 对 类 条 件 概率 密度 建 模 ， 因 此 可 以 应 用 于 分 类 问题 。 
。 概率 PCA 模 型 可 以 用 一 种 生成 式 的 方式 运行 ， 从 而 可 以 按照 某 个 概率 分 布 生成 样本 。 


这 种 概率 模型 形式 的 PCA 由 Tipping and Bishop (1997, 1999b) 和 Roweis (1998) 独立 提出 。 正 
如 我 们 后 面 将 会 看 到 的 那样 ， 它 与 因子 分 析 (factor analysis) 密切 相关 (Basilevsky, 1994) 。 

概率 PCA 是 线性 高 斯 框架 的 一 个 简单 的 例子 ， 其 中 所 有 的 边缘 概率 分 布 和 条 件 概率 分 布 都 是 
高 斯 分 布 。 我 们 可 以 按照 下 面 的 方式 建立 概率 PCA 模 型 。 首 先 显 式 地 引入 潜在 变量 z， 对 应 于 主 
成 分 子 空间 。 接 下 来 我 们 定义 潜在 变量 上 的 一 个 高 斯 先 验 分 布 p(z) 以 及 以 潜在 变量 的 值 为 条 
件 ， 观 测 变量 z 的 高 斯 条 件 概 率 分 布 p(x | z)。 具 体 来 说 ，z 上 的 先 验 概率 分 布 是 一 个 零 均值 单 
位 协 方差 的 高 斯 分 布 





p(z) = N(z|0,7) (12.31) 
类 似 地 ， 以 潜在 变量 z 的 值 为 条 件 ， 观 测 变 量 z 的 条 件 概 率 分 布 还 是 高 斯 分 布 ， 形 式 为 
p(z|z)=N(z| Wz+ pr,0°7) (12.32) 


其 中 z 的 均值 是 z 的 一 个 一 般 的 线性 函数 ， 由 D x MM 的 矩阵 WW 和 DD 维 向 量 j 控 制 。 注 意 ， 可 以 关 
于 z 的 各 个 元 素 进行 分 解 ， 换 名 话说， 这 是 朴素 贝 叶 斯 模型 的 一 个 例子 。 正 如 我 们 稍 后 会 看 到 
的 那样 ，W 的 列 张 成 了 数据 空间 的 一 个 线性 子 空 间 ， 对 应 于 主子 空间 。 模 型 中 的 另 一 个 参 
数 中 控制 了 条 件 概率 分 布 的 方差 。 注 意 ， 我们 可 以 不 失 一 般 性 地 假设 潜在 变量 分 布 p(z) 服 从 一 
个 零 均 值 单位 协 方差 的 高 斯 分 布 ， 因 为 更 一 般 的 高 斯 分 布 会 产生 一 个 等 价 的 概率 模型 。 

我 们 可 以 从 生成 式 的 观点 看 待 概率 PCA 模 型 ， 其 中 观测 值 的 一 个 采样 值 通过 下 面 的 方式 获 
得 : 首先 为 潜在 变量 选择 一 个 值 ， 然 后 以 这 个 潜在 变量 的 值 为 条 件 ， 对 观测 变量 采样 。 具 体 来 
说 ，D 维 观测 变量 z 由 以 维 潜在 变量 z 的 一 个 线性 变换 附加 一 个 高 斯 "噪声 "定义 ， 即 


T= Wz+hte (12.33) 
其 中 z 是 一 个 M 维 高 斯 潜在 变量 ，e 是 一 个 忆 维 零 均值 高 斯 分 布 的 噪声 变量 ， 协 方差 为 c2T。 这 
个 生成 式 过 程 如 图 12.9 所 示 。 注 意 ， 这 个 框架 基于 的 是 从 潜在 空间 到 数据 空间 的 一 个 映射 ， 这 与 


之 前 讨论 的 PCA 的 传统 观点 不 同 。 从 数据 空间 到 湾 在 空间 的 逆 映 射 可 以 通过 使 用 贝 叶 斯 定理 的 
方式 得 到 。 
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假设 我 们 希望 使 用 最 大 似 然 的 方式 确定 参数 伍 ,A 和 vc? 的 值 。 为 了 写 出 似 然 函数 的 表达 式 ， 
我 们 需要 观测 变量 的 边缘 概率 分 布 p(x) 的 表达 式 。 根 据 概率 的 加 和 规则 和 乘积 规则 ， 边 缘 概 率 
分 布 的 形式 为 





plz) = 人 p(x | zjp(z) dz (12.34) 
由 于 这 对 应 于 一 个 线性 高 斯 模型 ， 因 此 边缘 概率 分 布 还 是 高 斯 分 布 ， 形 式 为 
p(s) = N(x | pC) (12.35) 


其 中 D x D 协 方差 矩阵 C 被 定义 为 
C=WW?i+oI (12.30) 


这 个 结果 也 可 以 更 直接 地 推导 出 来 。 我 们 注意 到 预测 概率 分 布 是 高 斯 分 布 ， 然 后 使 用 公式 
(12.33) 计算 它 的 均值 和 协 方差 ， 结 果 为 


Ex] 三 下 [了 zz 十 AT 十 el 三 多 (12.37) 





























covlz] = 下 [(Wz+el(Wz+e)] 
=EWzz W|+Elee = WW’ +oI 


其 中 我 们 使 用 了 下 面 的 事实 : z 和 e 是 独立 的 随机 变量 ， 因 此 非 相关 。 

直观 地 说 ， 我 们 可 以 将 概率 分 布 p(z) 想 象 成 由 一 个 各 向 同性 的 高 斯 喷雾 钠 " 定 义 ， 然 后 将 这 
个 喷雾 钠 移 过 主子 空间 ， 喷 射 高 斯 分 布 的 墨水 ,喷射 的 概率 密度 由 o? 定 义 ， 且 权 值 为 先 验 概 率 
分 布 。 累 积 的 墨水 密度 产生 了 "“ 薄 煎饼 ?形状 的 概率 分 布 ， 表 示 边 缘 概 率 密度 p(z)。 

预测 分 布 p(z) 由 参数 凡 W 和 o? 控 制 。 然 而 ， 这 些 参 数 中 存在 宛 余 性 ， 对 应 于 潜在 空间 坐标 
的 旋转 。 为 了 说 明 这 一 点 ， 考 虑 一 个 矩阵 玉 = WR， 其 中 R 是 一 个 正 交 和 矩阵 。 使 用 正 交 性 
质 RR' = I， 我 们 看 到 协 方差 矩阵 C 中 的 WW 的 形式 为 


(12.38) 


























WW = WRRIWT < WwWT (12.39) 


因此 与 R 独 立 。 从 而 有 一 大 类 的 矩阵 WW 会 给 出 相同 的 预测 分 布 。 这 种 不 变性 可 以 理解 为 潜在 空 
间 中 的 旋转 。 我 们 稍 后 会 回 到 对 模型 独立 参数 数量 的 讨论 中 。 
当 我 们 计算 预测 分 布 时 ， 我 们 需要 C~1， 这 涉及 到 对 一 个 D x DD 的 矩阵 求 逆 。 使 用 矩阵 求 逆 
的 恒等式 (C.7) ， 所 需 的 计算 量 可 以 被 化 简 。 使 用 这 个 矩阵 恒等式 得 到 的 结果 为 
Cli=o ?I -oo WM-iW’ (12.40) 


其 中 M x MM 的 矩阵 MM 的 定义 为 
M= WiW+o’I (12.41) 


由 于 我 们 对 AM 进行 求 逆 而 不 是 直接 对 C 求 着 ， 因 此 计算 C- :从 O(LD3) 减 小 到 了 O(M3)。 
与 预测 分 布 p(x) 一 样 ， 我 们 也 需要 后 验 概率 分 布 p(z | x)， 这 可 以 直接 使 用 公式 (2.116) 给 
出 的 线性 高 斯 模型 的 结果 写 出 来 ， 结 果 为 
p(z| zx)=Nz| M iW’ (zr— 1),o0M-!) (12.42) 


注意 ， 后 验 均值 依赖 于 x， 而 后 验 协 方差 与 x 无关。 
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图 12.10: 对 于 观测 变量 z 的 六 次 观测 组 成 的 数据 集 ， 概 率 PCA 模 型 可 以 表示 为 一 个 有 向 图 ， 其 中 每 个 观测 
变量 zn 与 潜在 变量 的 zn 的 值 相 关联 。 


12.2.1 最 大 似 然 PCA 

我 们 接 下 来 考虑 使 用 最 大 似 然 法 确定 模型 的 参数 ， 给 定 观测 数据 点 的 数据 点 和 = {zn}， 概 
率 PCA 模 型 可 以 表示 为 一 个 有 向 图 ， 如 图 12.10 所 示 。 根 据 公 式 (12.35) ， 对 应 的 对 数 似 然 函 数 
为 


N 
Inp(X | 4,W,o°)= > ,Inp(zn | W, 1,0°) 
a (12.43) 
ND N 1 本 
= 一 -tn(2m) 一 本 InlCl- 3 (en — 1) Clr — 1) 


令 似 然 函 数 关于 /的 导数 等 于 零 ， 可 以 得 到 预期 的 结果 /= 区 ， 其 中 z 是 公式 (12.1) 定义 的 数 
据 均 值 。 代 回 到 似 然 函数 中 ， 我 们 有 


N 
Inp(X | W, 1,0°) = -3{DIn(27) +In|C| + Tr(C-1S)} (12.44) 


其 中 8 是 由 公式 (12.3) 定义 的 协 方差 矩阵 。 由 于 对 数 似 然 函 数 是 1 的 二 次 函数 ， 因 此 解 具有 唯 
一 的 最 大 值 ， 可 以 通过 计算 二 阶 导数 的 方式 验证 这 一 点 。 

关于 W 和 o2 的 最 大 化 更 复杂 ,但 是 尽管 这 样 ， 它 们 还 是 有 一 个 近似 的 封闭 解 。Tipping and 
Bishop (1999b) 证 明 ， 对 数 似 然 函数 的 所 有 驻 点 都 可 以 写成 





Wawmr = UMD — oT3R (12.45) 


其 中 UM 是 一 个 Dx M 的 矩阵 ， 它 的 列 由 数据 协 方差 矩阵 5 的 特征 向 量 的 任意 (大 小 为 M 的 ) 
子 集 给 定 。M x M 的 对 角 和 矩阵 Lu 的 元 素 是 对 应 的 特征 值 和 A;，R 是 一 个 任意 的 M x 内 的 正 交 拢 


阵 。 

此 外 ，Tipping and Bishop (1999b) 证 明 ， 当 M 个 特征 向 量 被 选 为 前 M 个 最 大 的 特征 值 所 
对 应 的 特征 向 量 时 ， 对 数 似 然 通 数 可 以 达到 最 大 值 ， 其 他 所 有 的 解 都 是 鞍点 。 类 似 的 结果 
由 Roweis (1998) 独立 地 提出 猜想 ,但 是 未 给 出 证 明 。 与 之 前 一 样 ， 我 们 假定 特征 向 量 按照 对 
应 的 特征 值 的 大 小 降序 排列 ， 从 而 MM 个 主 特征 向 量 是 wi).…. ,um。 在 这 种 情况 下 ，W 的 列 定义 
了 标准 PCA 的 主子 空间 。 这 样 ，o* 的 对 应 的 最 大 似 然 解 为 








万 
1 
2 .二 ， 
OZ 二 万- 3 和 i (12.40) 


从 而 oR 是 与 丢弃 的 维度 相关 联 的 平均 方差 。 

由 于 RR 是 正 交 的 ， 因 此 它 可 以 被 看 做 是 M 维 潜在 空间 中 的 一 个 旋转 和 矩阵。 如 果 我 们 将 WW 的 
解 代入 到 C 的 表达 式 中 ， 然 后 使 用 正 交 性 质 有 RR 一 TT， 那么 我 们 看 到 C 与 RR 无 关 。 这 表明 ,与 
之 前 讨论 的 一 样 ， 预 测 概率 分 布 在 潜在 空间 中 具有 旋转 不 变性 。 对 于 及 = 7 这 一 特定 情形 ， 我 
们 看 到 WW 的 列 是 主 成 分 特征 向 量 ， 由 方差 参数 的 平方 根 V 和 i 一 0 进行 缩放 。 一 旦 我 们 认识 到 对 
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于 独立 高 斯 分 布 (本 例 中 的 湾 在 空间 分 布 和 噪声 模型 ) 的 卷 积 来 说 ， 方 差 是 可 加 的 ， 那 么 这 些 
放 缩 因子 的 意义 就 很 明显 了 。 因 此 ， 在 特征 向 量 刀 方向 上 的 方差 X 由 两 部 分 相 加 得 到 ， 一 部 分 
来 自 于 从 单位 方差 潜在 空间 分 布 通过 对 应 的 三 的 列 向 数据 空间 投影 的 贡献 X 一 o2， 另 一 部 分 来 
自 于 在 噪声 模型 的 所 有 方向 上 相 加 的 各 项 同性 的 方差 的 贡献 o?。 

值得 花 一 些 时 间 研 究 一 下 公式 (12.36) 给 出 的 协 方差 矩阵 的 形式 。 考 虑 预测 分 布 在 由 单位 
向 量 v 指 定 的 方向 上 的 方差 ， 其 中 v7v = 1， 这 个 方差 为 w+Cv。 首 先 假设 v 与 主子 空间 正 交 ， 即 
它 等 于 被 丢弃 的 特征 向 量 的 某 个 线性 组 合 。 那 么 v7 了 U = 0， 因 此 v7Cw = o2。 所 以 模型 预测 了 
一 个 噪声 方差 正 交 于 主子 空间 。 根 据 公 式 (12.46) ， 这 个 方差 就 是 丢弃 的 特征 值 的 平均 值 。 现 
在 假设 v = w;， 其 中 是 一 个 定义 了 主子 空间 的 特征 向 量 。 那 么 v7 了 Cw = (Xi 一 ac] 十 o2 = Xi。 
换 句 话说 ， 这 个 模型 正确 地 描述 了 数据 沿 着 主轴 方向 的 方差 ， 并且 用 一 个 单一 的 均值 2 近似 了 
所 有 剩余 方向 上 的 方差 。 

一 种 建立 最 大 似 然 密度 模型 的 方式 是 寻找 数据 协 方差 矩阵 的 特征 值 和 特征 向 量 ， 然 后 使 用 上 
面 的 结果 计算 W 和 o*。 在 这 种 情况 下 ， 为 了 方便 ， 我 们 会 选择 RR = IT。 然而 ， 如 果 最 大 似 然 解 
通过 对 似 然 函 数 的 数值 最 优化 的 方式 得 到 ， 例 如 使 用 诸如 共 恩 梯度 法 (Fletcher, 1987; Nocedal 
and Wright, 1999; Bishop and Nabney, 2008) 或 者 EM 算法 ， 那 么 得 到 的 RR 值 就 可 能 是 任意 的 了 。 
这 表明 WW 的 列 不 必 是 正 交 的 。 如 果 我 们 需要 一 组 正 交 的 基 ， 那 么 矩阵 W 可 以 进行 恰当 的 后 处 理 
(Golub and Van Loan, 1996) 。 此 外 ，EM 算 法 可 以 进行 修改 ， 直 接 产生 单位 正 交 的 主 方向 ， 按 
照 对 应 的 特征 值 降 序 排序 (Ahn and Oh, 2003) 。 

潜在 空间 中 的 旋转 不 变性 代表 了 一 种 形式 的 统计 不 可 区 分 性 ， 类 似 于 我 们 在 离散 潜在 变量 的 
混合 模型 中 遇 到 的 情形 。 这 里 ， 有 一 组 连续 的 参数 会 产生 同样 的 预测 密度 ， 这 不 同 于 与 混合 模 
型 中 的 分 量 重新 标注 相关 联 的 离散 不 可 区 分 性 。 

如 果 我 们 考虑 M = D 的 情形 ， 从 而 不 存在 维度 的 降低 ， 那 么 Uw = U 且 Lx = 工 。 使 用 正 交 
的 性 质 UU7 = I 以 及 RR =I， 我 们 看 到 z 的 边缘 概率 分 布 的 协 方差 C 变 成 了 


C=U(L- oI3RRI(L- IIUT +oI=ULUT=S (12.47) 


因此 我 们 得 到 了 无 限制 高 斯 分 布 的 标准 的 最 大 似 然 解 ， 其 中 协 方差 矩阵 是 样本 的 协 方差 。 

传统 的 PCA 通 常 的 形式 是 D 维 空间 的 数据 点 在 MM 维 线性 子 空间 上 的 投影 。 然 而 ， 概 率 PCA 可 
以 很 自然 地 表示 为 从 潜在 空间 到 数据 空间 的 映射 ， 由 公式 (12.33) 给 出 。 对 于 数据 可 视 化 和 数 
据 压缩 之 类 的 应 用 ,我 们 可 以 使 用 贝 叶 斯 定理 将 这 个 映射 取 逆 。 这 样 ， 任 何在 数据 空间 中 的 
点 ZT 都 可 以 使 用 潜在 空间 中 的 后 验 均值 和 方差 进行 概括 。 根 据 公 式 (12.42) ， 均 值 为 
































Elz| z] = M iWhr(r — 2) (12.48) 
其 中 M 由 公式 (12.41) 给 出 。 它 到 数据 空间 的 一 个 点 的 投影 关 
WElz|z|+r (12.49) 














注意 ， 这 与 正则 化 的 线性 回归 方程 的 形式 相同 ， 结 果 是 最 大 化 了 线性 高 斯 模型 的 对 数 似 然 函 
数 。 类 似 地 ,公式 (12.42) 的 后 验 协 方差 为 2 M1， 与 x 无 关 。 
如 果 我 们 取 极限 c” 一 0， 那 么 后 验 均值 为 


(Wh Waur) Wir(r — 2) (12.50) 


这 表示 数据 点 在 潜在 空间 上 的 正 交 投 影 ， 因 此 我 们 就 恢复 出 了 标准 的 PCA 模 型 。 然 而 在 这 种 极 
限 情况 下 ， 后 验 协 方差 是 零 ， 概 率 密度 变 得 奇异 。 对 于 co2 > 0 的 情形 ， 潜 在 投影 与 正 交 投影 相 
比 ， 会 向 原点 方向 偏 移 。 

最 后 ， 我 们 注意 到 ， 概 率 PCA 模 型 在 定义 多 元 高 斯 分 布 时 具有 重要 的 作用 ， 其 中 自由 度 的 数 
量 ( 即 独立 参数 的 数量 ) 可 以 进行 控制 ， 同 时 仍然 使 得 模型 能 够 描述 数据 中 的 主要 的 相关 关 
系 。 回 忆 一 下 ， 一 个 一 般 的 高 斯 分 布 在 协 方差 矩阵 中 有 学 对 个 独立 的 参数 (加 上 均值 中 的 另 
外 了 个 参数 ) 。 因 此 参数 的 数量 随 着 也 以 二 次 函数 的 方式 增多 ， 从 而 在 高 位 空间 中 变 得 无 法 处 
理 。 如 果 我 们 将 协 方差 矩阵 限制 为 对 角 化 ， 那 么 它 只 有 D 个 独立 的 参数 ， 从 而 此 时 参数 的 数量 
随 着 维度 线性 增长 。 然 而 ， 现 在 它 对 变量 的 处 理 方式 类 似 于 将 变量 看 成 是 独立 的 ， 从 而 无 法 表 
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达 变 量 之 间 的 相关 性 关系 。 概 率 PCA 提 供 了 一 种 优雅 的 折 中 方式 ， 它 能 够 描述 M 个 最 显著 的 相 
关 性 关系 ,同时 使 得 参数 的 总 数 随 着 DD 线 性 增长 。 我 们 可 以 通过 计算 概率 PCA 模 型 的 自由 度 的 
数量 来 理解 这 一 点 ， 如 下 所 述 。 协 方差 矩阵 C 依 赖 于 参数 W (大 小 为 D x M) 和 o?， 从 而 总 的 
参数 数量 为 DM + 1。 然 而 ， 我 们 已 经 看 到 参数 中 存在 一 些 与 潜在 空间 坐标 系 的 旋转 相关 联 的 元 
余 性 。 表 示 这 种 旋转 的 正 交 矩阵 有 R 的 大 小 为 M x M。 这 个 矩阵 的 第 一 列 有 AM 一 1 个 独立 的 参 
数 ， 因 为 列 向 量 必须 归 一 化 到 单位 长 度 ， 第 二 列 有 M - 2 个 独立 的 参数 ， ee 
一 化 ， 并 且 必 须 与 前 一 列 重 直 ， 以 此 类 推 。 对 这 个 算术 序列 求 和 ， 我 们 看 到 RR 总 共有 了 区 一 
独立 参数 。 因 此 协 方差 矩阵 C 的 自由 度 的 数量 为 


M(M-1) 
2 





DM+1 (12.51) 
于 是 ， 对 于 固定 的 M， 这 个 模型 中 的 独立 参数 的 数量 随 着 D 只 是 线性 增长 关系 。 如 果 我 们 
令 M = D 一 1， 那 么 我 们 就 恢复 出 了 高 斯 分 布 的 完整 的 协 方 差 矩 阵 的 标准 结果 。 在 这 种 情况 
下 ， 沿 着 D - 1 个 线性 独立 方向 的 方差 由 三 的 列 所 控制 ， 沿 着 剩余 方向 的 方差 由 2 控制 。 如 
果 M = 0， 那么 模型 等 价 于 各 向 同性 协 方差 的 情形 。 





12.2.2 ”用 于 PCA 的 EM 算法 


正如 我 们 已 经 看 到 的 那样 ， 概 率 PCA 模 型 可 以 根据 连续 潜在 空间 z 上 的 积分 或 求 和 来 表示 ， 
其 中 对 于 每 个 数据 点 zw， 都 存在 一 个 对 应 的 潜在 变量 zn。 于 是 ， 我 们 可 以 使 用 EM 算法 来 找到 
模型 参数 。 这 看 起 来 似乎 相当 没有 意义 ， 因 为 我 们 已 经 得 到 了 最 大 似 然 参数 值 的 一 个 精确 的 解 
析 解 。 然 而 ， 在 高 维 空间 中 ， 使 用 迷 代 的 EM 算法 而 不 是 直接 计算 样本 协 方差 算 阵 可 能 会 有 一 些 
计算 上 的 优势 。 这 个 EM 的 求解 步骤 也 可 以 推广 到 因子 分 析 模 型 中 ， 那 里 不 存在 解析 解 。 最 后 ， 
它 使 得 我 们 可 以 用 一 种 有 理 有 据 的 方式 处 理 缺 失 的 数据 。 

我 们 可 以 使 用 一 般 的 EM 框架 来 推导 用 于 概率 PCA 的 EM 算法 。 因 此 ， 我 们 写 出 完整 数据 对 数 
似 然 函 数 ， 然 后 关于 使 用 旧 的 参数 值 计 算 的 洪 在 变量 的 后 验 概 率 分 布 求 期 望 。 最 大 化 完整 数据 
对 数 似 然 函 数 的 期 望 就 会 产生 新 的 参数 值 。 因 为 我 们 假定 数据 点 是 独立 的 ， 因 此 完整 数据 对 数 
似 然 函数 的 形式 为 





N 
Inp(X,Z | ,WwW, oo?) = > flnp(zn | zn) + ln p(zn)} (12.52) 


n=1 
其 中 矩阵 2 的 第 n 行 由 zn 给 出 。 我 们 已 经 知道 的 精确 的 最 大 似 然 解 是 公式 (12.1) 定义 的 样本 


均值 未 。 在 这 个 阶段 将 A 苦 换 掉 是 比较 方便 的 。 分 别 使 用 公式 (12.31) 和 “(12.32) 给 出 的 潜在 概 
率 分 布 和 条 件 概率 分 布 的 表达 式 ， 然 后 关于 洪 在 变量 上 的 后 验 概率 分 布 求 期 望 ， 我 们 有 














N 
D 1 
olinp(X,Z | pW,0%)] =— D> {Flin(2ro") + 3 Tr(B[znz®) 


n=1 
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(12.53) 
[Zn nl 52 [zj W (pn — 1) 























十 -一 Tr(Elz,zT WTW)+ 和 2 In(27)} 














注意 ， 上 式 仅 仅 通过 高 斯 分 布 的 充分 统计 量 对 后 验 概 率 分 布 产 生 依赖 。 因 此 在 E 步 又 中 ,我 们 使 
用 旧 的 参数 计算 











plzn] = MW (zn, — 2) (12.54) 
Blznzd| = 02M- 1 + Ez Ez (12.55) 


这 可 以 直接 从 后 验 概率 分 布 (12.42) 以 及 标准 的 结果 正 [znzz] = cov[zn] 十 EE[zn]E[zn]? 中 得 出 。 
这 里 ，M 由 公式 (12.41) 定义 。 
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图 12.11: 概率 PCA 用 于 将 石油 流 数 据 集 的 前 100 个 数据 点 进行 可 视 化 。 左 图 给 出 了 数据 点 在 主子 空间 上 的 
后 验 均 值 投影 。 右 图 的 获得 方式 是 : 首先 随机 略 去 30% 的 观测 值 ， 然 后 使 用 EM 来 处 理 缺 失 值 。 注 意 ， 每 
个 数据 点 之 后 有 至 少 一 个 缺失 的 度量 ， 但 是 得 到 的 图 像 与 没有 缺失 值 的 图 像 相 当 相 似 。 


在 M 步 骤 中 ， 我 们 关于 WW 和 o? 进 行 最 大 化 ， 保 持 后 验 统计 量 固 定 。 关 于 o? 的 最 大 化 很 容 
易 。 对 于 关于 W 的 最 大 化 ， 我 们 可 以 使 用 (C.24) 。 求 得 的 M 步 又 方程 为 


N N 一 
人 三 新 二 De 一 区) | > a (12.50) 


也 一 | 九 一 | 






































N 
1 
2 二 ||2 TT 7 二 
YpF 一 一 一 一 2 况 
“新 一 VD Dt{len | [zn] 了 新 (Zn 一列 ) (12.57) 





+ Tr( E[znzH]W 条 WW 新 )} 


概率 PCA 的 EM 算法 的 执行 过 程 为 : 对 参数 进行 初始 化 ， 然 后 交替 地 在 E 步 又 中 使 用 公式 
(12.54) 和 “(12.55) 计算 潜在 空间 的 后 验 概率 分 布 的 充分 统计 量 ， 以 及 在 M 步 又 中 使 用 公式 
(12.56) 和 “(12.57) 来 修正 参数 的 值 。 

用 于 PCA 的 EM 算法 的 一 个 好 处 是 对 于 大 规模 应 用 的 计算 效率 (Roweis, 1998) 。 与 传统 的 基 
于 样本 协 方 差 矩 阵 的 特征 向 量 分 解 的 PCA 不 同 ，EM 算 法 时 迭代 的 ， 因 此 似乎 没有 什么 吸引 力 。 
然而 ， 在 高 维 空间 中 ，EM 算 法 的 每 次 欠 代 所 需 的 计算 量 都 要 比 传统 的 PCA 小 得 多 。 为 了 说 明 这 
一 点 ， 我 们 注意 到 ， 对 协 方差 矩阵 的 特征 分 解 的 计算 复杂 度 为 0(D3)。 通 常 我 们 只 对 前 M 个 特 
征 向 量 和 它们 的 特征 值 感 兴趣 ， 这 种 情况 下 我 们 可 以 使 用 O(MD?) 的 算法 。 然 而 ， 计 算 协 方差 
矩阵 本 身 需 要 O(ND?) 的 计算 量 ， 其 中 入 是 数据 点 的 数量 。 有 一 些 能 够 避免 直接 计算 协 方差 矩 
阵 的 算法 ， 例 如 快照 方法 〈snapshot method) (Sirovich, 1987) 假设 特征 向 量 是 数据 向 量 的 线性 
组 合 ,但 是 这 种 算法 的 计算 复杂 度 为 O(NS)， 因 此 不 适用 于 大 规模 数据 。 这 里 描述 的 EM 算法 也 
没有 显 式 地 建立 协 方差 矩阵 。 相 反 ， 计 算 量 最 大 的 步骤 是 涉及 到 对 数据 集 求 和 的 操作 ， 计 算 代 
价 为 O(NDM)。 对 于 较 大 的 D，M < D, 这 与 O(ND?) 相 比 ， 计 算 量 极 大 地 降低 ， 因 此 可 以 抵 
消 EM 算 法 的 迭代 本 质 。 

注意 ， 这 个 EM 算法 可 以 用 一 种 在 线 的 形式 执行 ， 其 中 每 个 D 维 数据 点 被 读 入 、 处 理 ， 然 后 
在 处 理 下 一 个 数据 点 之 前 丢弃 这 个 数据 点 。 为 了 说 明 这 一 点 ， 注 意 在 E 步 骤 中 需要 计算 的 量 (一 
个 M 维 向 量 和 一 个 M x M 的 矩阵 ) 可 以 分 别 对 每 个 数据 点 单独 计算 ， 在 M 步 骤 中 ， 我 们 需要 在 
数据 点 上 累积 求 和 ， 这 个 可 以 增 量 地 完成 。 如 果 和 NN 和 DD 都 很 大 ， 那 么 这 种 方法 会 很 有 优势 。 

由 于 我 们 现在 对 PCA 建 立 了 一 个 完全 的 概率 模型 ， 因 此 我 们 可 以 通过 对 未 观测 变量 进行 积 4 
或 求 和 的 方式 ， 处 理 缺 失 的 数据 ， 假 设 数据 的 缺失 是 随机 的 。 与 之 前 一 样 ， 这 些 缺 失 值 可 以 使 
用 EM 算法 进行 处 理 。 我 们 在 图 12.11 中 给 出 了 使 用 这 种 方法 进行 数据 可 视 化 的 一 个 例子 。 

EM 算法 的 另 一 个 特征 是 ， 我 们 可 以 取 极 限 o? 一 0， 对 应 于 标准 的 PCA， 仍 然 可 以 得 到 一 
个 合法 的 类 似 EM 的 算法 (Roweis, 1998) 。 根 据 公式 (12.55) ， 我 们 看 到 我 们 在 E 步 骤 中 需要 
计算 的 唯一 的 量 是 E[zn]。 此 外 ，M 步 又 可 以 得 到 简化 ， 因 为 M = W7W。 为 了 强调 算法 的 
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图 12.12: 人 工 生成 的 数据 用 来 说 明 公式 (12.58) 和 “12.59) 定义 的 用 于 PCA 的 EM 算法 。(o) 一 个 数据 集 
合生， 数据 点 用 绿色 表示 。 同 时 画 出 了 真实 的 主 成 分 〈 用 特征 向 量 表示 ， 使 用 特征 值 的 平方 根 进 行 了 缩 
放 ) 。(b) 由 WW 定义 的 主子 空间 的 初始 配置 ， 用 红色 表示 。 同 时 画 出 了 ZW ”给 出 的 潜在 点 2 在 数据 空间 
上 的 投影 ， 用 青色 表示 。(9 在 一 次 M 步 又 之 后 ， 潜 在 空间 被 更 新 ， 保 持 QG 固 定 。(d 在 接 下 来 的 E 步 骤 之 
后 ，2G 的 值 被 更 新 ， 得 到 了 正 交 投影 ， 保 持 厂 固定 。(e 在 第 二 个 M 步 又 之 后 的 结果 。G 收 敛 的 解 。 











简化 ， 让 我 们 将 鲜 定 义 为 一 个 N x 万 的 矩阵 ， 它 的 第 n 行 为 向 量 zn 一 多， 类 似 地 ， 定 义 Q 为 一 
个 M x N 的 矩阵 ， 它 的 第 n 行 是 向 量 E[zn]。 这 样 PCA 的 EM 算法 的 E 步 又 (12.54) 就 变 成 了 














2 ch 

9 = (WHWI) WHX (12.58) 
M 步 又 (12.56) 的 形式 为 

Wy¥ =X QQ (12.59) 


与 之 前 一 样 ， 可 以 使 用 一 种 在 线 的 方式 执行 。 这 些 方程 有 一 个 很 简单 的 意义 ， 如 下 所 述 。 根 据 
我 们 之 前 的 讨论 ， 我 们 看 到 BE 步骤 涉及 到 数据 点 在 当前 估计 的 主子 空间 上 的 正 交 投 影 。 对 应 
地 ，M 步 又 表示 对 主子 空间 的 重新 估计 ， 使 得 平方 重建 误差 最 小 ， 其 中 投影 固定 。 

我 们 可 以 给 出 这 个 EM 算法 的 一 个 简单 的 物理 类 比 ， 这 对 于 D = 2 和 M = 1 的 情形 很 容易 进 
行 可 视 化 。 考 虑 二 维 空间 中 的 一 组 数据 点 ， 令 一 维 主 子 空间 用 一 个 固体 的 村 表示。 现在 使 用 一 
个 遵守 胡 克 定律 (存储 的 能 量 正比 于 弹簧 长 度 的 平方 ) 的 弹簧 将 每 个 数据 点 与 杆 相连 。 在 E 步 又 
中 ， 我 们 保持 杆 固 定 ， 让 附着 的 点 沿 着 杆 上 下 滑动 ， 使 得 能 量 最 小 。 这 使 得 每 个 数据 点 独立 地 
到 达 对 应 的 数据 点 在 杆 上 的 正 交 投影 的 位 置 。 在 M 步 骤 中 ， 我 们 令 附着 点 固定 ， 然 后 松 开 杆 ， 
让 杆 达到 能 量 最 小 的 位 置 。 然 后 E 步 骤 和 M 步 又 不 断 重复 ， 直 到 满足 一 个 收敛 准则 ， 如 图 12.12 所 
不 。 














12.2.3 ”由 叶 斯 PCA 


目前 在 我 们 关于 PCA 的 讨论 中 ， 我 们 假定 主子 空间 的 维度 MM 是 给 定 的 。 在 实际 应 用 中 ， 我 们 
必须 根据 应 用 选择 一 个 合适 的 值 。 为 了 数据 可 视 化 ， 我 们 一 般 选 择 M = 2， 而 对 于 其 他 的 应 
用 ，M 的 合适 的 选择 就 没有 这 么 明显 了 。 一 种 方法 是 画 出 数据 集 的 特征 值 谱 线 ， 类 似 于 离线 手 
写 数字 数据 集 的 图 12.4 的 例子 ， 然 后 看 特征 值 是 否 自然 地 分 成 了 两 组 ， 一 组 由 很 小 的 值 组 成 ， 另 
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图 12.13: 贝 叶 斯 PCA 的 概率 图 模型 ， 其 中 参数 矩阵 W 上 的 概率 分 布 由 超 参数 向 量 a 控 制 。 


一 组 由 相对 较 大 的 值 组 成 ， 两 组 之 间 有 一 个 很 明显 的 区 分 ， 表 示 M 的 选择 存在 一 个 很 自然 的 
值 。 在 实际 应 用 中 ， 这 种 明显 的 区 分 通常 无 法 看 到 。 

由 于 概率 PCA 模 型 有 一 个 具有 良好 定义 的 似 然 函 数 ， 因 此 我 们 可 以 使 用 交叉 验证 的 方法 ， 通 
过 选择 在 验证 数据 集 上 的 对 数 似 然 函 数 最 大 的 模型 来 确定 维度 的 值 。 然 而 ， 这 种 方法 计算 
量 很 大 ， 特别 是 如 果 我 们 考虑 PCA 混 合 概 率 模 型 时 更 是 如 此 (Tipping and Bishop, 1999a) 。 
在 PCA 混 合 概率 模型 中 ， 我 们 要 为 每 个 混合 分 量 单独 确定 合适 的 维度 。 

我 们 已 经 有 了 PCA 模 型 的 概率 形式 ， 似 乎 寻找 贝 叶 斯 模型 选择 的 方法 是 很 自然 的 。 为 了 完成 
这 件 事 ， 我 们 需要 关于 合适 的 先 验 概率 分 布 ， 将 模型 参数 内 W 和 o? 积 分 出 去 。 可 以 使 用 变 分 框 
架 来 近似 这 个 无 法 解析 求解 的 积分 (Bishop, 1999b) 。 这 样 ， 由 变 分 下 界 给 出 的 边缘 似 然 函数 
的 值 就 可 以 在 不 同 的 MM 值 之 间 进 行 比较 ， 然 后 选择 具有 最 大 边缘 似 然 函数 的 M 值 。 

这 里 ， 我 们 考虑 一 个 更 简单 的 方法 ， 基 于 证 据 近 似 (evidence approximation) ， 它 适用 于 
数据 点 的 数量 相对 较 大 以 及 对 应 的 后 验 概率 分 布 有 尖峰 的 情形 (Bishop, 1999a) 。 它 涉及 到 
对 W 上 的 先 验 概率 分 布 的 一 个 具体 的 选择 ， 使 得 主子 空间 中 多 余 的 维度 可 以 从 模型 中 前 枝 掉 。 
这 对 应 于 7.2.2 节 讨论 的 自动 相关 性 确定 (automatic relevance determination, ARD) 的 一 个 例子 。 
具体 来 说 ， 我 们 在 WW 的 每 个 列 上 定义 一 个 独立 的 高 斯 先 验 ， 这 些 列表 示 定 义 了 主子 空间 的 响 
亮 。 每 个 这 样 的 高 斯 分 布 有 一 个 独立 的 方差 ， 由 精度 超 参 数 ai 控 制 ， 从 而 


M D 
QT 了 1 
p(W | a) = [I ( 空 ) ”exp {of ee) (12.60) 
i=1 


其 中 wi 是 W 的 第 i 列 。 生 成 的 模型 可 以 使 用 图 12.13 的 有 向 图 表示 。 

%; 的 值 可 以 通过 最 大 化 边缘 似 然 函 数 的 方式 迭代 地 求解 ， 其 中 剑 被 积分 出 去 。 作 为 最 优 
化 的 结果 ， 某 个 ai 可 能 趋 于 无 穷 大 ， 对 应 的 参数 向 量 wi 趋 于 零 〈 后 验 概率 分 布 变 成 了 原点 处 
的 delta 函 数 ) ， 得 到 了 一 个 稀疏 解 。 这 样 ， 主 子 空间 的 有 效 的 维度 由 有 限 的 % 的 值 确定 ， 对 应 
的 向 量 wi 可 以 被 认为 对 于 数据 分 布 的 建 模 是 有 关系 的 "。 通 过 这 种 方式 ， 贝 叶 斯 方法 自动 地 在 
提升 数据 拟 合 程 度 (使 用 较 多 的 向 量 wi; 以 及 对 应 的 根据 数据 调节 的 特征 值 M) 和 减 小 模型 复杂 
度 压制 某 些 w; 向 量 的 值 ) 之 间 进 行 了 折 中 。 这 种 稀 惑 性 的 来 源 之 前 在 相关 向 量 机 的 问题 中 已 
经 讨论 过 。 


Qi 的 值 在 训练 阶段 通过 最 大 化 似 然 函 数 的 方式 被 重新 估计 ， 形 式 为 





p(X | ay Aio2) = jz 1 有 io2p(T | a) dW (12.61) 


其 中 ，P( | W,1,o7) 的 对 数 由 公式 (12.43) 给 出 。 注 意 ， 为 了 简化 起 见 ， 我 们 也 将 4 和 oo 看 
成 待 估计 的 参数 ， 而 没有 在 这 些 参 数 上 定义 先 验 概率 分 布 。 

由 于 积分 无 法 直接 计算 ， 因 此 我 们 使 用 拉 普 拉 斯 近似 。 如 果 我 们 假设 后 验 概率 分 布 有 尖峰 ， 
这 种 情况 对 于 足够 大 的 数据 集 确实 会 发 生 ， 那 么 重 估 计 方 程 可 以 通过 关于 Qi; 最 大 化 边缘 似 然 函 
数 的 方式 得 到 ， 形 式 为 

a 新 == a (12.62) 

Vi Wi 
这 可 以 从 公式 (3.98) 中 推导 出 来 ， 只 需 注意 到 wi 的 维度 是 D 即 可 。 这 些 重新 估计 过 程 与 
确定 W 和 os 的 EM 算法 的 更 新 过 程 交织 在 一 起 。 与 之 前 一 样 ，E 步 又 方程 由 公式 (12.54) 和 
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图 12.14: 矩阵 WW 的 Hinton 图 ， 其 中 和 矩阵 的 每 个 元 素 被 表示 为 一 个 正方 形 ， 白 色 表 示 正 值 ， 黑 色 表 示 负 
值 ， 正 方形 的 面积 正比 于 那个 元 素 的 大 小 。 人 工 生成 的 数据 集 由 300 个 数据 点 构成 ， 数 据点 从 一 
个 D = 10 维 的 高 斯 分 布 中 采样 ， 高 斯 分 布 在 3 个 方向 上 的 标准 差 为 1.0， 在 剩余 的 7 个 方向 上 的 标准 差 为 
0.5。 数 据 空间 的 维度 为 D = 10， 在 M = 3 个 方向 上 的 方差 大 于 剩余 的 7 个 方向 上 的 方差 。 左 图 给 出 了 使 
用 最 大 似 然 方 法 的 概率 PCA 的 结果 ， 右 图 给 出 了 贝 叶 斯 PCA 的 对 应 的 结果 。 我 们 看 到 通过 压制 6 个 多 余 的 
自由 度 的 方式 来 发 现 维度 的 合适 的 值 。 


(12.55) 给 出 。 类 似 地 ，o? 的 M 步 骤 方 程 由 公式 (12.57) 给 出 。 在 M 步 又 中 的 唯一 的 改变 
是 WW 的 方程 ， 它 修改 后 的 形式 为 


N N 
(wn 一 元 ) | > E[znz2] 十 a24 


也 一 工 


—1 




















(12.63) 














n=1 


其 中 4 = diag(as)。 与 之 前 一 样 ， 的 值 为 样本 均值 。 

如 果 我 们 令 M = D 一 1， 那么 如 果 所 有 的 qi 是 有 限 值 ， 那 么 模型 表示 一 个 具有 完整 协 方差 的 
高 斯 模型 ， 而 如 果 所 有 的 Qi 区 域 无 穷 大 ， 那 么 模型 等 价 于 各 向 同性 的 高 斯 模型 ， 从 而 模型 可 以 
涵盖 主子 空间 的 有 效 维度 的 所 有 可 能 的 值 。 也 可 以 考察 较 小 的 M 值 ， 这 会 降低 计算 量 , 但 是 也 
限制 了 子 空间 的 最 大 维度 。 这 个 算法 与 标准 的 概率 PCA 算 法 的 对 比如 图 12.14 所 示 。 

贝 叶 斯 PCA 使 得 我 们 有 机 会 来 说 明 11.3 节 讨论 的 吉 布 斯 采样 算法 。 图 12.15 给 出 了 对 超 参 
数 ln a 采样 的 例子 ， 数 据 集 的 维度 为 D = 4， 潜 在 空间 的 维度 为 M = 3， 但 是 数据 集 通 过 一 个 概 
率 PCA 模 型 生成 ， 这 个 模型 在 一 个 方向 上 的 方差 较 大 ， 剩 余 方向 由 较 低 方差 的 噪声 组 成 。 结 果 
很 明显 地 展示 了 后 验 概 率 分 布 中 三 个 不 同 峰 值 的 存在 。 在 每 轮 欠 代 中 ， 一 个 超 参数 具有 较 小 的 
值 ， 剩 下 的 两 个 具有 较 大 的 值 ， 因 此 三 个 潜在 变量 中 的 两 个 被 压制 。 在 吉 布 斯 采样 的 过 程 中 ， 
解 在 三 个 峰值 之 间 会 发 生 很 明显 的 转移 。 

这 里 描述 的 模型 仅仅 涉及 到 和 矩阵 W 上 的 先 验 概率 分 布 。 关 于 PCA 的 完整 的 贝 叶 斯 方法 ， 包 
括 4,02,a 上 的 先 验 概率 分 布 ， 以 及 使 用 变 分 方法 的 解 ， 可 以 参考 Bishop (1999b) 。 关 于 确 
定 PCA 模 型 的 合适 维度 的 不 同 的 贝 叶 斯 方法 的 讨论 ， 可 以 参考 Minka (2001c) 。 


12.2.4 ”因子 分 析 


因子 分 析 是 一 个 线性 高 斯 潜在 变量 模型 ， 它 与 概率 PCA 密 切 相关 。 它 的 定义 与 概率 PCA 的 唯 
一 差别 是 给 定 潜在 变量 z 的 条 件 下 观测 变量 zx 的 条 件 概 率 分 布 的 协 方差 矩阵 是 一 个 对 角 和 矩阵 而 不 
是 各 向 同性 的 协 方差 矩阵 ， 即 


p(z|z)=N(z| Wz+p,v) (12.64) 


其 中 亚 是 一 个 D x D 的 对 角 和 矩阵 。 注 意 ， 与 概率 PCA 模 型 相同 ， 因 子 分 析 模 型 假设 在 给 定 潜在 
变量 z 的 条 件 下 ， 观 测 变量 zl1,...,zp 是 独立 的 。 本 质 上 讲 ， 因 子 分 析 模 型 这 样 解释 数据 的 观测 
协 方差 结构 : 表示 出 矩阵 亚 中 与 每 个 坐标 相关 联 的 独立 的 变量 ， 然 后 描述 矩阵 三 中 的 变量 
之 间 的 协 方差 。 在 因子 分 析 的 文献 中 ，W 的 列 描述 了 观测 变量 之 间 的 相关 性 关系 ， 被 称 为 
因子 载 入 (factor loading) 。 亚 的 对 角 元 素 ， 表 示 每 个 变量 的 独立 噪声 方差 .被 称 为 唯一 性 


(uniqueness) 。 
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图 12.15: 用 于 贝 叶 斯 PCA 的 吉 布 斯 采样 。 图 中 给 出 了 对 于 三 个 不 同 的 a 值 ，In % 关 于 迭代 次 数 的 图 像 。 可 
以 看 出 在 后 验 概率 分 布 的 三 个 峰值 之 间 的 变化 。 


因子 分 析 的 起 源 于 PCA 一 样 早 。 关 于 因子 分 析 的 讨论 可 以 参考 Everitt (1984) 、Bartholomew 
和 Basilevsky (1994) 。Lawley (1953) 和 Anderson (1963) 研究 了 因子 分 析 与 PCA 之 间 的 联 
系 ， 证 明了 在 似 然 函数 的 驻 点 处 ， 对 于 一 个 于 = o? 了 I 的 因子 分 析 模 型 ，W 的 列 是 样本 协 方差 的 
放 缩 后 的 特征 向 量 ，o? 是 丢弃 的 特征 值 的 平均 值 。 后 来 ，Tipping and Bishop (1999b) 证 明 ， 当 
组 成 W 的 特征 向 量 被 选 为 主 特征 向 量 时 ， 对 数 似 然 函 数 取 得 最 大 值 。 

使 用 公式 (2.115) ， 我 们 看 到 观测 变量 的 边缘 概率 分 布 为 p(z) = 二 N(xz | pn,C)， 其 中 


C = 作 佣 了 十 和 (12.65) 


与 概率 PCA 相 同 ， 模 型 对 于 潜在 空间 中 的 选择 具有 不 变性 。 

历史 上 ， 在 因子 分 析 中 ， 当 我 们 试图 给 独立 的 因子 (z 空 间 的 坐标 ) 赋予 一 个 直观 的 意义 
时 ， 因 子 分 析 就 变 成 了 争论 的 焦点 。 由 于 潜在 空间 中 的 选择 不 变性 ， 因 子 分 析 中 存在 不 可 区 分 
的 问题 ， 这 会 造成 很 多 麻烦 。 然 而， 从 我 们 的 角度 来 说 ， 我 们 将 因子 分 析 看 成 一 种 形式 的 潜在 
变量 密度 模型 ， 其 中 我 们 感 兴趣 的 是 潜在 空间 的 形式 ， 而 不 是 描述 它 的 具体 的 坐标 系 的 选择 。 
如 果 我 们 想 要 移 除 与 潜在 空间 旋转 相关 联 的 模型 的 退化 ， 那 么 我 们 必须 考虑 非 高 斯 的 潜在 变量 
分 布 ， 这 就 产生 了 独立 成 分 分 析 (ICA) 模型 。 

我 们 可 以 使 用 最 大 似 然 方法 确定 因子 分 析 模 型 中 的 参数 1,W, 亚 的 值 。 与 之 前 一 样 ，j 的 解 
是 样本 的 均值 。 然 而 ， 与 概率 PCA 不 同 ，W 的 最 大 似 然 解 不 再 具有 解析 解 ， 因 此 必须 迭代 地 求 
解 。 由 于 因子 分 析 是 一 个 潜在 变量 模型 ， 因 此 可 以 使 用 与 概率 PCA 模 型 中 使 用 的 EM 算法 相近 似 
的 EM 算法 来 计算 (Rubin and Thayer, 1982) 。 具 体 来 说 ，E 步 又 方程 为 












































Elzn| = GW (zn, — ZF) (12.60) 
[zzZ] = G+ Elzn|Elzn] (12.67) 

其 中 我 们 已 经 定义 了 
G=(I+Wiy iW)! (12.68) 


注意 ， 这 里 使 用 了 一 个 M x M 的 矩阵 求 逆 的 表达 方式 ， 而 不 是 D x D 的 表达 方式 ( 除 
非 下 是 D x D 的 对 角 和 矩阵 ， 此 时 求 逆 很 简单 ， 只 需 0(D) 次 计算 ) ， 这 通常 很 方便 ， 因 为 通 
常 M < D。 类 似 地 ，M 步 又 方程 的 形式 为 


N N —1 
Wi = ee, 一 元 ) | 阳 a] (12.69) 


n=1 n 二 


























1 
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图 12.16: 核 PCA 的 图 形 化 说 明 。 原 始 数据 空间 中 的 数据 集 ( 左 图 ) 被 非 线 性 变换 p(x) 投 影 到 特征 空间 中 
《( 右 图 ) 。 通过 在 特征 空间 中 执行 PCA， 我 们 得 到 了 主 成 分 ， 其 中 第 一 主 成 分 用 蓝 色 表示 ， 记 作 向 
量 v1。 特 征 空 间 中 的 绿色 直线 表示 特征 空 间 中 在 第 一 主 成 分 上 的 线性 投影 ， 它 对 应 于 原始 数据 空间 中 的 
非 线 性 投影 。 注 意 ， 通 常 不 可 能 在 x 空间 中 表示 非 线 性 主 成 分 。 

















亚 新 二 diag {s- W 新 二 1 Dr [zn| (Zn 一 | (12.70) 


其 中 ， diag 算 符 将 所 有 非 对 角 线 上 的 元 素 全 部 设置 为 零 。 使 用 本 书 中 讨论 过 的 方法 ， 可 以 很 容 
易 地 得 到 因子 分 析 模 型 的 贝 叶 斯 方法 。 

概率 PCA 与 因子 分 析 的 另 一 个 不 同 点 关注 的 是 数据 集 在 变换 下 的 行为 的 差异 。 对 于 PCA 和 概 
率 PCA 来 说 ， 如 果 我 们 在 数据 空间 中 选择 坐标 系 ， 那 么 我 们 对 数据 的 拟 合 不 会 发 生 任何 变化 ， 
但 是 W 会 使 用 对 应 的 选择 矩阵 进行 变换 。 然 而 ， 对 于 因子 分 析 来 说 ， 类 似 的 性 质 是 ， 如 果 我 们 
对 于 数据 向 量 进行 一 个 分 量 之 间 的 重新 缩放 ， 那 么 这 种 缩放 可 以 被 整合 到 对 更 的 元 素 的 重新 缩 
放 之 中 。 











12.3” 核 PCA 


在 第 6 章 中 ， 我 们 看 到 了 核 奉 换 的 方法 让 我 们 能 够 使 用 形 如 zz7z' 的 标量 积 表示 的 算法 ， 并 且 
通过 使 用 一 个 非 线性 核 替换 标量 积 的 方式 来 对 算法 进行 推广 。 这 里 ， 我 们 将 核 奉 换 的 方法 应 用 
到 主 成 分 分 析 中 ， 从 而 得 到 了 一 个 非 线 性 的 推广 ， 被 称 为 核 PCA (kernel PCA) (Sch6lkopf et 
al., 1998) 。 

考虑 DD 维 空间 中 的 一 个 观测 数据 集 xz;,， 其 中 n = 1,...,N。 为 了 保持 记号 的 简洁 ， 我 们 假设 
我 们 已 经 从 每 个 zn 中 减 去 了 样本 的 均值 ， 从 而 >j, zn = 0。 第 一 步 是 将 传统 的 PCA 表 示 为 这 样 
的 形式 : 数据 向 量 {zv} 只 以 标量 积 zzm 的 形式 出 现 。 回 忆 一 下 ， 主 成 分 由 协 方差 矩阵 的 特征 
向 量 刀 定义 ， 即 








SUu; = Nus (12.71) 
其 中 i = 1,...,D。 这 里 D x D 的 样本 协 方差 矩阵 5 的 定义 为 


1 N 
要 yznz7 (12.72) 
n=1 


特征 向 量 被 归 一 化 ， 从 而 ul wi = 1。 

现在 考虑 到 一 个 人 维特 征 空间 的 一 个 非 线 性 变换 p(x)， 从 而 每 个 数据 点 zx 被 投影 到 一 个 数 
据点 89(zxn) 上 。 我 们 现在 可 以 在 特征 空间 上 进行 标准 的 PCA， 它 隐 式 地 在 原始 数据 空间 中 定义 了 
一 个 非 线 性 的 主 成 分 模型 ， 如 图 12.16 所 示 。 
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现 阶段 ， 让 我 们 假设 投影 数据 集 的 均值 也 为 零 ， 从 而 2 和 4(zn) = 0。 我 们 稍 后 会 回 到 这 
里 。 特 征 空间 中 的 M x M 样 本 协 方 差 矩阵 为 


N 
2 brn) P(rn)T (12.73) 
它 特 征 向 量 展开 式 被 定义 为 

CV; = NV; (12.74) 
其 中 i = 1,.….,M。 我 们 的 目标 是 求解 这 个 特征 值 问 题 ， 而 无 需 显 式 地 在 特征 空间 中 计算 。 根 
据 C 的 定义 ， 特 征 向 量 方程 告诉 我 们 vi 满足 


二 > (Zn ){@( Ln) Tow;} 一 入 ii Eee 


因此 我 们 看 到 〈 假 设 X; > 0) 向 量 w 由 %(zn) 的 特征 值 给 出 ， 因 此 可 以 写成 
VD; 一 > ain@ (Ln) (12.70) 
将 这 个 表达 式 代 回 到 特征 向 量 方程 中 ， 我 们 有 
1 N N 
六 ya PTn) P(En) > aim@ (Tm) = Ai >， ain@ (Tn) (12.77) 
n=1 m= 二 1 欧 竺 二 


现在 关键 的 步骤 是 用 核 函 数 FLzn zm) = 9(Xn) ”9(Zm) 表 示 上 式 。 我 们 可 以 将 两 侧 乘 
以 p(x1)”， 得 到 


N N 
1 
2 k(z1, Tn) 2 Oimk (Pn; Tm) = Xs aink (1, Tn) (12.78) 
这 可 以 用 和 矩阵 的 记号 表示 为 
K2a; = NNKoa; (12.79) 


其 中 ai; 是 一 个 NN 维 列 向 量 ， 元 素 为 ain， 其 中 n = 1,.…., NN。 我 们 可 以 通过 求解 下 面 的 特征 值 方 
程 
Ka; = MNa; (12.80) 

来 找到 a; 的 解 ， 其 中 我 们 已 经 从 方程 (12.79) 两 侧 去 掉 了 一 个 因子 KK。 注 意 , 方程 (12.79) 和 
(12.80) 的 解 的 唯一 差别 在 于 五 的 那些 特征 值 为 零 的 特征 向 量 ， 这 些 特 征 向 量 不 会 影响 主 成 分 
投影 。 

系数 ai 的 归 一 化 条 件 可 以 通过 要 求 特征 空间 的 特征 向 量 被 归 一 化 的 方式 得 到 。 使 用 公式 
(12.76) 和 〈12.80) ， 我 们 有 


全 一 vl vi 二 Sy 全 ainQim@ (Ln) To(zm) 二 al Ka; = NNa! ai (12.81) 


n=1 m=1 


解 出 了 特征 向 量 方程 之 后 ， 得 到 的 主 成 分 投影 也 可 以 根据 核 函 数 进 行 转化 。 使 用 公式 
(12.76) ， 点 z 在 特征 向 量 ;上 的 投影 为 


N N 
Yi(z) = PL) ui = > aind(z)7 db(zn) = > aink (2, Ln) (12.82) 
n=1 n=1 
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从 而 我 们 又 一 次 得 到 了 根据 核 函数 进行 表示 的 形式 。 

在 原始 的 D 维 zx 空间 中 ， 有 D 个 正 交 的 特征 向 量 ， 因 此 我 们 最 多 可 以 找到 D 个 线性 主 成 分 。 
然而 特征 空间 的 维度 M 可 以 比 D 大 得 多 ， 其 至 可 以 是 无 穷 大 ， 因 此 我 们 可 以 找到 多 于 DD 个 非 线 
性 主 成 分 。 但 是 注意 ， 非 零 特 征 值 的 数量 不 能 超过 数据 点 的 数量 N， 因 为 (即使 4M > N) 
特征 空间 中 的 协 方差 窍 阵 的 秩 最 大 等 于 VN。 这 可 以 从 下 面 的 事实 中 反映 出 来 : 核 PCA 涉 及 到 
对 NN x 入 矩阵 玉 的 特征 向量 展开 。 

目前 为 止 ， 我 们 假设 由 P(xn) 给 出 的 投影 数据 集 的 均值 为 零 ， 通 常 的 情况 并 非 如 此 。 我 们 不 
能 简单 地 计算 然后 减 去 均值 ， 因 为 我 们 希望 避免 直接 在 特征 空间 中 进行 计算 ， 因 此 我 们 完全 根 
据 核 函数 来 建立 算法 的 公式 。 在 中 心 化 之 后 ， 投 影 的 数据 点 〈 记 作 d(zn)) 为 


N 
Ben) = blen) — HD Pe) (12.83) 
l=1 


从 而 Gram 和 矩阵 的 对 应 元 素 为 
9 


N 
= 4(zn) PLm) 一 六 2 (xn) (zl) 


AN 2 
gr j=1 1=1 (12.84) 


使 用 矩阵 的 记号 ， 这 个 结果 可 以 表示 为 

K=K-1NK- Klv+lnKiy (12.85) 
其 中 ln 表示 NN x NN 的 矩阵 ， 它 的 每 个 元 素 的 值 都 是 坟 。 因 此 ， 我 们 可 以 只 使 用 核 函 数 来 计 
算 扩 ， 然 后 使 用 KK 确定 特征 值 和 特征 向 量 。 注 意 ， 如 果 我 们 使 用 线性 核 k(x, 2 ) = zzz'， 那 


么 我 们 就 恢复 出 了 标准 的 PCA 算 法 。 图 12.17 给 出 了 核 PCA 应 用 于 人 工 生 成 数据 集 的 一 个 例子 
(Sch6lkopf et al., 1998) 。 这 里 ， 我 们 将 一 个 “高 斯 " 核 








lll2 
k(zx, x') = exp (- jz 证 | ) (12.80) 
应 用 于 人 工 生成 数据 集 。 图 中 的 曲线 对 应 于 沿 着 曲线 方向 ， 在 对 应 的 主 成 分 上 投影 为 常数 的 轮 
廓 线 ， 投 影 的 定义 为 


N 
p(T)T vi = > aink(Z, Tn) (12.87) 
到 二 二 


核 PCA 的 一 个 明显 的 缺点 是 它 涉及 到 寻找 N x N 和 矩阵 KK 的 特征 向 量 ， 而 不 是 传统 的 线 
性 PCA 中 D x D 的 矩阵 $ 的 特征 向 量 ， 因 此 在 实际 应 用 中 ， 对 于 较 大 的 数据 集 ， 我 们 经 常会 使 用 
近似 。 

最 后 ,我 们 注意 到 在 标准 的 线性 PCA 中 ， 我 们 通常 保留 上 < D 个 特征 向 量 ， 然 后 使 用 数据 癌 
量 z 在 L 为 主子 空间 上 的 投影 来 近似 数据 向 量 z,， 投 影 的 定义 为 

L 
En = > (zhui) us (12.88) 


i 二 1 
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Eigenvalue=21.72 Eigenvalue=21.65 Eigenvalue=4.11 Eigenvalue=3.93 


Eigenvalue=3.66 Eigenvalue=3.09 Eigenvalue=2.60 Eigenvalue=2.53 


图 12.17: 使 用 高 斯 核 的 核 PCA 用 于 二 维 空间 的 人 工 生成 数据 集 的 例子 ， 图 中 画 出 了 前 8 个 特征 函数 以 及 对 
应 的 特征 值 。 轮 廓 线 表 示 沿 着 曲线 的 方向 ， 在 对 应 的 主 成 分 上 的 投影 是 常数 的 轮廓 线 。 注 意 前 两 个 特征 
向 量 将 三 个 聚 类 划分 开 ， 接 下 来 的 三 个 特征 向 量 将 每 个 聚 类 分 成 一 两 半 ， 再 接 下 来 的 三 个 特征 向 量 再 次 
将 聚 类 划分 为 两 半 ， 方 向 是 沿 着 与 之 前 的 划分 正 交 的 方向 。 


在 核 PCA 中 ， 这 通常 是 不 可 能 的 。 为 了 说 明 这 一 点 ， 我 们 注意 到 上 映射 p(x) 将 D 维 x 空间 映 
射 到 了 M 维 特征 空间 Vp 中 的 一 个 D 维 流 形 (manifold) 中 。 向 量 z 被 称 为 对 应 点 %(z) 的 原 像 
(pre-image) 。 然 而 ， 特 征 空间 中 的 点 在 特征 空间 的 线性 PCA 子 空间 中 的 投影 通常 不 会 位 于 非 
线性 刀 维 流 形 中 ， 因 此 在 数据 空间 中 不 会 存在 一 个 对 应 的 原 像 。 于 是 ， 研 究 者 们 提出 了 一 些 寻 
找 近 似 原 像 的 方法 (Bakir et al., 2004) 。 


12.4 非 线性 隐 含 变量 模型 


本 章 中 ,我 们 将 注意 力 集中 与 带 有 连续 潜在 变量 的 最 简单 的 一 类 模型 上 ， 即 基于 线性 高 斯 分 
布 的 模型 。 这 些 模型 在 实际 应 用 中 很 重要 ， 并 且 这 些 模型 相对 容易 分 析 ， 容 易 拟 合 数据 ， 也 可 
以 用 作 更 复杂 模型 的 基本 成 分 。 这 里 ， 我 们 简要 讨论 一 下 对 这 个 框架 的 一 些 推广 ， 推 广 到 非 线 
性 的 模型 ， 或 者 非 高 斯 的 模型 ， 或 者 二 者 兼 具 的 模型 。 

实际 上 ， 非 线性 性 质 和 非 高 斯 性 质 是 相互 关联 的 ， 因 为 一 般 的 概率 密度 可 以 从 一 个 简单 的 固 
定 的 参考 概率 密度 (例如 高 斯 分 布 ) 中 得 到 ， 只 需 对 变量 进行 非 线性 变换 即 可 。 这 个 想法 构成 
了 几 个 实际 应 用 中 的 潜在 变量 模型 的 基础 ， 正 如 我 们 将 看 到 的 那样 。 


12.4.1 独立 成 分 分 析 


首先 ， 我 们 考虑 观测 变量 与 潜在 变量 线性 相关 的 模型 ， 但 是 潜在 概率 分 布 不 是 高 斯 分 布 。 这 
种 模型 的 一 个 重要 的 类 别 被 称 为 独立 成 分 分 析 (independent component analysis) ， 或 者 ICA。 
如 果 我 们 考虑 潜在 变量 上 的 概率 分 布 的 分 解 ， 即 


M 


G2 = (12.89) 


J=1 


那么 我 们 就 会 应 用 到 这 个 模型 。 为 了 理解 这 种 模型 的 作用 ， 考 虑 这 样 一 个 场景 : 两 个 人 同时 讲 
话 ， 我 们 使 用 两 个 麦 死 风 来 记录 他 们 的 声音 。 如 果 我 们 忽略 诸如 时 间 延 迟 和 回声 之 类 的 影响 ， 
那么 在 任意 时 间 点 ， 麦 克 风 接收 到 的 信号 都 是 两 个 声音 的 振幅 的 线性 组 合 。 这 个 线性 组 合 的 系 
数 是 常数 ， 并 且 如 果 我 们 可 以 从 采样 数据 中 推断 它们 的 值 ， 那 么 我 们 就 可 以 将 混合 的 过 程 〈 假 
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设 非 奇异 ) 进行 求 赣 ,从 而 得 到 两 个 干净 的 信号 ， 每 个 信号 只 包含 一 个 人 的 声音 。 这 是 盲 源 划 
分 (blind source separation) 问题 的 一 个 例子 ， 其 中 ,“ 盲 "表示 我 们 只 给 定 了 混合 数据 ， 而 原始 
的 数据 源 和 混合 系数 都 没有 被 观测 到 (Cardoso, 1998) 。 

这 类 问题 有 时 使 用 下 面 的 方法 解决 “MacKay, 2003) ， 其 中 我 们 忽略 信号 的 时 序 本 质 ， 将 连 
续 的 样本 看 成 是 独立 同 分 布 的 。 我 们 考虑 一 个 生成 式 模型 ， 其 中 有 两 个 潜在 变量 ， 对 应 于 未 观 
测 的 语音 信号 的 幅 值 ， 有 两 个 观测 变量 ， 由 麦克 风 的 信号 值 给 定 。 潜 在 变量 的 联合 概率 分 布 可 
以 按照 上 面 的 方式 分 解 ， 观 测 变 量 由 潜在 变量 的 线性 组 合 给 定 。 我 们 无 需 引 入 一 个 噪声 分 布 ， 
因为 潜在 变量 的 数量 等 于 观测 变量 的 数量 ， 从 而 观测 变量 的 边缘 概率 分 布 通常 不 会 是 奇异 的 ， 
因此 观测 变量 仅仅 由 潜在 变量 的 线性 组 合 确 定 。 给 定 一 组 观测 数据 ， 模 型 的 似 然 函 数 是 线性 组 
合 的 系数 的 一 个 函数 。 对 数 似 然 函 数 可 以 使 用 基于 梯度 的 最 优化 方法 进行 最 大 化 ， 得 到 了 独立 
成 分 分 析 的 一 个 特定 的 版 本 。 

这 种 方法 的 成 功 需要 令 潜 在 变量 具有 非 高 斯 的 概率 分 布 。 为 了 说 明 这 一 点 ， 回 忆 一 下 在 概 
率 PCA (以 及 因子 分 析 ) 中 ,潜在 空间 分 布 是 一 个 零 均值 的 各 向 同性 的 高 斯 分 布 。 于 是 ， 模 型 
无 法 区 分 那些 区 别 仅仅 在 于 潜在 空间 的 旋转 的 潜在 变量 的 不 同 选择 。 这 一 点 可 以 用 下 面 的 方法 
直接 验证 : 我 们 注意 到 边缘 概率 密度 (12.35) 在 变换 WW 一 WR 下 是 不 变 的 ， 因 此 似 然 函数 也 
是 不 变 的 ， 其 中 R 是 正 交 矩阵， 满足 RR 了， 这 是 因为 公式 (12.36) 给 出 的 矩阵 C 本 身 是 不 
变 的 。 将 这 个 模型 进行 扩展 ， 使 得 更 多 的 概率 潜在 分 布 被 包含 到 模型 中 ， 结 论 不 会 改变 ， 因 为 
正如 我 们 已 经 看 到 的 那样 ， 这 种 模型 等 价 于 零 均值 各 向 同性 的 高 斯 潜在 变量 模型 。 

我 们 用 男 一 种 方式 说 明 为 什么 线性 模型 中 的 高 斯 潜在 变量 分 布 对 于 找到 独立 的 成 分 是 不 够 
的 。 我 们 注意 到 ， 主 成 分 表示 数据 空间 中 的 坐标 系 的 一 个 旋转 ， 从 而 对 协 方差 矩阵 进行 了 对 和 角 
化 ， 因 此 新 的 坐标 系 中 的 数据 分 布 没有 相关 性 。 虽 然 不 具有 相关 性 是 独立 性 的 一 个 必要 条 件 ， 
但 是 它 不 是 充分 条 件 。 在 实际 应 用 中 ， 潜 在 变量 分 布 的 一 个 常见 的 选择 是 

1 2 
D(z7) 加 AT cosh(z;) 加 NA(e5 十 C1) (12.90) 
这 与 高 斯 分 布 相 比 ， 具 有 长 尾 的 性 质 ， 这 反映 了 许多 现实 世界 中 的 概率 分 布 同样 具有 这 种 性 
质 。 

最 初 的 ICA 模 型 (Bell and Sejnowski, 1995) 基于 的 是 由 信息 最 大 化 定义 的 目标 函数 的 最 优化 
过 程 。 概 率 潜在 变量 形式 的 一 个 优点 是 它 有 助 于 对 基本 ICA 的 推广 进行 形式 化 描述 。 例 如 ， 独 
立 因子 分 析 (independent factor analysis) 研究 的 是 这 样 的 模型 : 潜在 变量 的 数量 和 观测 变量 
的 数量 可 以 不 同 ， 观 测 变 量 带 有 了 噪声， 各 个 潜在 变量 的 概率 分 布 很 灵活 ， 由 混合 高 斯 模型 
建 模 。 这 个 模型 的 对 数 似 然 函数 使 用 EM 算法 进行 最 大 化 ， 潜 在 变量 的 重建 使 用 变 分 方法 进 
行 近似 。 研 究 者 们 也 在 研究 许多 其 他 类 型 的 模型 ， 现 在 有 许多 文献 研究 ICA 及 其 应 用 (Jutten 
and Herault, 1991; Comon et al., 1991; Amari et al., 1996; Pearlmutter and Parra, 1997; Hyvirinen and 
Oja, 1997; Hinton et al., 2001; Miskin and MacKay, 2001; Hojen-Sorensen et al., 2002; Choudrey and 
Roberts, 2003; Chan et al., 2003; Stone, 2004) 。 











12.4.2” 自 关联 网 络 


在 第 5 章 中 ， 我 们 在 有 监督 学 习 的 环境 中 研究 了 神经 网 络 ， 其 中 网 络 的 左右 是 在 给 定 输入 变 
量 值 的 条 件 下 预测 输出 。 然 而 ， 神 经 网 络 也 被 应 用 于 无 监督 学 习 ， 此 时 神经 网 络 用 于 维度 降 
低 。 使 用 输出 结 点 与 输入 结 点 数量 相同 的 神经 网 络 ， 通 过 最 优化 权 值 来 最 小 化 某 种 度量 ， 这 种 
度量 描述 了 在 训练 数据 集 上 ， 输 入 和 输出 之 间 的 重建 误差 。 

首先 ， 考虑 图 12.18 所 示 的 多 层 感知 器 网 络 ， 它 有 DD 个 输入 ，D 个 输出 ， 以 及 M 个 隐 舍 单元 ， 
其 中 M < D。 用 来 训练 网 络 所 使 用 的 目标 棉 量 仅仅 是 输入 向 量 本 身 ， 因 此 网 络 试图 将 输入 向 量 
映射 到 它 本 身上 。 这 样 的 网 络 构 成 了 一 个 自 相 关上 映射 (autoassociative mapping) 。 由 于 隐 含 
元 的 数量 小 于 输入 的 数量 ， 因 此 将 所 有 的 变量 进行 一 个 完美 的 重建 通常 是 不 可 能 的 。 于 是 ,我 
们 通过 最 小 化 一 个 误差 函数 的 方式 来 确定 网 络 的 参数 w， 这 个 误差 函数 描述 了 输入 向 量 和 它们 
的 重建 之 间 的 不 匹配 程度 。 特 别 地 ， 我 们 会 现在 一 个 平方 和 误差 函数 ， 形 式 为 


N 
ol ; SV yw) -zl (12.91) 
n=1 
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图 12.18: 一 个 自 相 关 的 多 层 感知 器 网 络 ， 具 有 两 层 权 值 。 这 样 的 一 个 网 络 通过 最 小 化 平方 和 误差 的 方式 
进行 训练 ， 得 到 从 输入 向 量 到 其 自身 的 一 个 映射 。 即 使 隐 含 层 是 非 线性 单元 ， 这 样 一 个 网 络 也 等 价 于 线 
性 主 成 分 分 析 。 为 了 清晰 ， 表 示 偏 置 参 数 的 链接 已 经 被 略 去 。 





图 12.19: 增加 额外 的 非 线性 单元 组 成 的 隐 含 层 产 生 了 一 个 能 够 进行 非 线性 维度 降低 的 自 相关 网 络 。 


如 果 隐 含 单元 具有 线性 激活 函数 ， 那 么 可 以 证 明 误差 函数 有 唯一 的 全 局 最 小 值 ， 在 这 个 最 
小 值 处 ， 网 络 实现 了 到 一 个 M 维 子 空 间 上 的 投影 ， 这 个 子 空 间 由 数据 的 前 M 个 主 成 分 张 成 
(Bourland and Kamp, 1988; Baldi and Hornik, 1989) 。 因 此 ， 图 12.18 的 隐 伟 单元 的 权 向 量 构成 了 
张 成 主子 空间 的 基 的 集合 。 但 是 ， 注 意 ， 这 些 向 量 不 需要 正 交 或 者 归 一 化 。 这 个 结果 毫 不 令 人 
惊讶 ， 因 为 主 成 分 分 析 和 神经 网 络 都 使 用 了 线性 维度 降低 、 并 且 最 小 化 相同 的 误差 函数 。 

可 能 我 们 会 认为 ， 线 性 维度 降低 的 局 限 性 可 以 在 网 络 的 隐 含 单元 中 使 用 图 12.18 中 的 非 线 性 

(sigmoid) 激活 函数 的 方式 来 克服 。 但 是 ， 即 使 使 用 非 线性 隐 仿 单元， 误差 函 数 的 最 小 值 同 样 
通过 在 主子 空间 上 投影 的 方式 获得 (Bourlard and Kamp, 1988) 。 于 是 使 用 两 层 神经 网 络 在 维度 
降低 方面 没有 优势 。 主 成 分 分 析 的 标准 方法 〈 基 于 奇异 值 分 解 ) 保证 在 有 限时 间 内 给 出 正确 的 
解 ， 并 且 这 种 方法 也 产生 了 特征 值 的 一 个 有 序 集合 ， 对 应 于 单位 正 交 的 特征 向 量 。 

然而 ， 如 果 网 络 中 有 额外 的 隐 含 层 ， 情 况 就 会 有 所 不 同 。 考 虑 图 12.19 给 出 的 四 层 自 相关 网 
络 。 与 之 前 一 样 ， 输 出 单元 是 线性 的 ， 在 第 二 个 隐 含 层 的 M 个 单元 也 可 以 是 线性 的 ， 但 是 第 一 
个 隐 含 屋 和 第 三 个 隐 含 层 具 有 sigmoid 非 线性 激活 函数 。 网 络 同 样 用 最 小 化 误差 困 数 (12.91) 的 
方式 确定 。 我 们 可 以 将 这 个 网 络 看 成 两 个 连续 的 函数 映射 情 和 天 2?， 如 图 12.19 所 示 。 第 一 个 映 
射 五 ;将 原始 的 万 维 数据 映射 到 1 为 子 空 间 8 上 ， 这 个 子 空 间 由 第 二 个 隐 含 层 的 单元 的 激活 所 定 
义 。 由 于 第 一 个 非 线性 单元 隐 含 层 的 存在 ， 因 此 这 个 映射 非常 一 般 ， 并 且 特 别 地 ， 这 个 映射 不 
限于 线性 上 映射。 类似 地 ， 网 络 的 第 二 部 分 定义 了 从 M 维 空间 到 原始 D 为 输入 空间 中 的 一 个 任意 
的 函数 映射 。 这 种 映射 有 一 个 很 简单 的 几何 意义 ， 图 12.20 给 出 了 D = 3 和 MM = 2 的 情形 。 

这 样 的 网 络 能 够 有 效 地 完成 非 线性 主 成 分 分 析 。 它 的 优点 在 于 ， 不 局 限于 线性 变换 ， 虽 然 标 
准 的 主 成 分 分 析 是 它 的 一 个 具体 的 例子 。 然 而 ， 现 在 训练 这 个 神经 网 络 涉及 到 非 线性 最 优化 问 
题 ， 因 为 误差 函数 (12.91) 不 再 是 网 络 参 数 的 二 次 函数 。 我 们 必须 使 用 需要 大 量 计 算 的 非 线 性 
最 优化 方法 ， 并 且 有 找到 误差 函数 的 局 部 极 小 值 的 风险 。 并 且 ， 子 空间 的 维度 必须 在 训练 网 络 
之 前 指定 。 
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图 12.20: 图 12.19 的 网 络 表 示 的 映射 的 集合 表示 ， 其 中 输入 单元 的 数量 为 D = 3， 中 间 隐 含 层 单元 的 数量 
为 M = 2。 通 数 政 ;表示 从 M 维 空间 S 到 D 维 空间 的 一 个 映射 ,因此 定义 了 空间 5 幅 入 到 原始 x 空间 的 方 
式 。 由 于 映射 Fz 可 以 是 非 线性 的 ， 因 此 5S 嵌入 的 空间 可 以 不 是 平面 ， 如 图 所 示 。 这 样 ， 映 射 也 定义 了 原 
始 D 维 空间 中 的 一 个 点 到 MM 维 子 空间 5S 中 的 投影 。 


12.4.3 ”对 非 线性 流 形 建 模 


正如 我 们 已 经 注意 到 的 那样 ， 许 多 自然 的 数据 源 对 应 于 低 维 的 可 能 带 有 噪声 的 非 线 性 流 形 ， 
这 些 流 形 镶 租 在 更 高 维 的 观测 数据 空间 中 。 显 式 地 利用 这 个 性 质 可 以 产生 与 一 般 的 方法 相 比 更 
好 的 概率 密度 模型 。 这 里 ， 我 们 简要 讨论 尝试 完成 这 一 点 的 几 种 方法 。 

对 这 种 非 线性 结构 建 模 的 一 种 方法 是 通过 线性 模型 的 组 合 ， 从 而 我 们 对 流 形 做 了 一 个 分 段 线 
性 的 近似 。 这 个 近似 可 以 通过 使 用 诸如 KK 均值 的 聚 类 方法 ， 基 于 欧 几 里 得 距离 ， 将 数据 集 划 分 
为 若干 个 局 部 的 分 组 ， 对 每 个 分 组 分 别 使 用 标准 的 PCA。 一 种 更 好 的 方法 是 使 用 聚 类 分 配 的 重 
建 误 差 (Kambhatla and Leen, 1997; Hinton et al., 1997) ， 然 后 在 每 个 阶段 优化 一 个 共同 的 代价 
函数 。 然 而 ， 这 些 方法 会 由 于 我 们 无 法 得 到 整体 的 概率 密度 模型 而 产生 局 限 性 。 通 过 使 用 概 
率 PCA， 很 容易 定义 一 个 完整 的 概率 模型 ， 只 需 考虑 一 个 混合 的 概率 分 布 ， 每 个 分 量 都 是 概 
率 PCA 即 可 (Tipping and Bishop, 1999a) 。 这 样 的 模型 既 包 含 离散 潜在 变量 ， 对 应 于 离散 的 混 
合 ， 也 包含 连续 的 潜在 变量 ， 以 及 可 以 使 用 EM 算法 最 大 化 的 似 然 函数 。 基 于 变 分 推断 的 纯粹 的 
贝 叶 斯 方法 (Bishop and Winn, 2000) 使 得 混合 分 量 的 个 数 以 及 各 个 模型 的 有 效 维度 可 以 从 数据 
中 进行 推断 。 这 个 模型 有 很 多 变 体 ， 例 如 将 诸如 玉 和 矩阵 或 噪声 方差 之 类 的 参数 与 混合 分 量 相关 
联 ， 或 者 将 各 向 同性 噪声 概率 分 布 替 换 为 对 角 的 噪声 概率 分 布 ， 这 就 引出 了 因子 分 析 的 混合 
(Ghahramani and Hinton, 1996a; Ghahramani and Beal, 2000) 。 概 率 PCA 模 型 的 混合 也 可 以 层次 
化 地 扩展 ， 产 生 了 一 个 很 有 吸引 力 的 数据 可 视 化 算法 (Bishop and Tipping, 1998) 。 

另 一 种 处 理 方 式 是 直接 考虑 一 个 单一 的 非 线性 模型 ， 而 不 是 将 线性 模型 混合 。 回 忆 一 下 ， 
传统 的 PCA 寻 找 一 个 线性 子 空 间 ， 这 个 子 空 间 在 最 小 平方 的 意义 下 能 够 以 最 近 的 距离 通过 
数据 集 。 这 个 概念 可 以 推广 到 一 维 非 线 性 曲面 ， 被 称 为 主 曲 线 (principal curve) (Hastie and 
Stuetzle, 1989) 。 我 们 可 以 使 用 一 个 向 量 值 的 函数 (入) 来 描述 DD 维 数据 空间 中 的 一 条 曲线 。 这 个 
函数 的 函数 值 是 一 个 向 量 ， 向 量 的 元 素 是 标量 和 的 一 个 函数 。 有 许多 种 可 能 的 方式 来 参数 化 这 条 
曲线 ， 其 中 一 种 自然 的 选择 是 沿 着 曲线 的 弧 的 长 度 。 对 于 数据 空间 中 的 任意 给 定 的 点 人 ， 我 们 
可 以 在 曲线 上 寻找 一 个 点 ， 它 距离 数据 点 的 欧 几 里 得 距离 最 小 。 我 们 将 这 个 点 记 作 入 = gy(z)， 
因为 它 依赖 于 一 个 特定 的 曲线 了 (和)。 对 于 一 个 连续 的 数据 概率 密度 p(x)， 一 个 主 曲 线 被 定义 为 
这 样 的 曲线 : 曲线 上 的 每 个 点 都 是 数据 空间 中 那些 投影 到 这 个 点 的 所 有 点 的 均值 ， 即 


gz | gs (7) = A = f(N) (12.92) 


对 于 一 个 给 定 的 连续 概率 密度 ， 可 能 存在 多 个 主 曲线 。 在 实际 应 用 中 ， 我 们 感 兴趣 的 是 有 限 的 
数据 集 ， 并 且 我 们 还 希望 将 注意 力 集中 于 光滑 的 曲线 。Hastie and Stuetzle (1989) 提出 了 一 个 
两 阶段 的 迭代 步 又 来 寻找 这 种 主 曲 线 ， 与 用 于 PCA 的 EM 算法 有 些 相 似 。 曲 线 使 用 第 一 主 成 分 进 
行 初 始 化 ， 然 后 算法 在 数据 投影 步骤 和 曲线 重 估计 步骤 之 间 交 蔡 进 行 。 在 投影 步骤 中 ， 每 个 数 
据点 被 赋 一 个 和 值 ， 对 应 于 曲线 上 距离 最 近 的 点 。 然 后 ， 在 重 佑 计 步 骤 中 ， 曲 线 上 的 每 个 点 都 是 
那些 投影 到 曲线 上 附近 点 的 一 个 加 权 平 均 ， 距 离 曲线 最 近 的 点 的 权重 最 大 。 在 子 空间 是 线性 的 
情况 下 ， 算 法 收敛 于 第 一 主 成 分 ， 等 价 于 寻找 协 方差 矩阵 最 大 特征 向 量 的 需 方 法 。 主 曲线 可 以 
推广 到 多 维 流 形 中 ， 这 个 流 形 被 称 为 主 曲面 (principal surface) ， 但 是 主 曲 面 的 用 途 很 有 限 ， 
因为 高 维 空间 的 数据 平滑 很 困难 ， 即 使 对 于 二 维 流 形 也 是 如 此 。 
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PCA 经 常 被 用 于 将 数据 集 投 影 到 低 维 空间 中 ， 例 如 二 维 空 间 中 ， 用 于 数据 的 可 视 化 。 另 
一 个 目的 很 相似 的 线性 方式 是 多 维 放 缩 (multidimensional scaling) 或 者 被 称 为 MDS (Cox and 
Cox, 2000) 。 这 种 方法 寻找 数据 的 一 个 低 维 投影 ， 同 时 使 得 数据 点 之 间 的 距离 尽 可 能 的 近 。 
这 种 方法 需要 寻找 距离 矩阵 的 特征 向 量 。 在 距离 的 度量 是 欧 几 里 得 距离 的 情况 下 ， 它 等 价 
于 PCA。MDS 的 概念 可 以 推广 到 相当 广泛 的 一 大 类 数据 类 型 中 ， 这 些 数据 类 型 根据 相似 度 和 矩阵 
定义 ， 得 到 了 非 度 量 MDS (nonmetric MDS) 。 

维度 降低 和 数据 可 视 化 的 另外 两 个 非 概 率 方法 很 值得 一 提 。 局 部 线性 谨 入 (locally linear 
embedding) 或 者 LLE (Roweis and Saul, 2000) 首先 计算 系数 的 集合 ， 这 些 系数 能 够 最 好 地 从 每 
个 数据 点 中 重建 出 它 的 相 邻 点 。 这 些 系 数 的 设置 使 其 对 于 数据 点 和 相 邻 点 的 旋转 、 平 移 、 缩 放 
具有 不 变性 ， 因 此 系数 描述 了 相 邻 点 的 几何 性 质 的 特征 。 然 后 ，LLE 将 高 维 数据 点 映射 到 低 维 
空间 中 ， 同 时 保持 这 些 邻 域 的 系数 。 如 果 对 于 一 个 特定 的 数据 点 ， 局 部 的 邻 域 可 以 被 当做 线性 
的 ， 那 么 变换 可 以 使 用 平移 、 旋 转 、 缩 放 的 组 合 来 实现 ， 从 而 保持 数据 点 和 它们 的 邻 域 之 间 的 
角度 。 由 于 权 值 对 于 这 些 变换 具有 不 变性 ， 因 此 我 们 预计 重建 低 维 空间 的 数据 点 和 高 维 空间 的 
数据 点 所 需 的 权 值 相同 。 尽 管 具有 非 线性 性 质 ， 对 于 LLE 的 优化 不 会 有 局 部 的 极 小 值 。 

在 等 尺度 特征 映射 〈isometric feature mapping) 或 者 isomap (Tenenbaum et al., 2000) 中 ， 目 

标 是 将 数据 点 使 用 MDS 投 影 到 低 维 空间 中 ， 但 是 不 相似 度 根据 在 流 形 上 测量 的 曲面 距离 
(geodesic distance) 定义 。 例 如 ， 如 果 两 个 数据 点 位 于 一 个 圆 上 ， 那 么 曲面 距离 是 沿 着 圆周 测 
量 的 弧 的 长 度 ， 而 不 是 沿 着 连接 两 点 的 终 的 直线 距离 。 首 先 ， 算 法 定义 每 个 数据 点 的 邻 域 ， 方 
法 是 寻找 天 个 最 近邻 ， 或 者 寻找 在 一 个 半径 为 e 的 球体 内 部 的 点 。 然 后 ， 通 过 将 所 有 的 邻 域 点 进 
行 连接 ， 然 后 使 用 欧 几 里 得 距离 标记 这 些 距 离 ， 就 可 以 构建 出 一 个 图 。 之 后 ， 任 意 点 对 之 间 的 
曲面 距离 通过 对 沿 着 连接 它们 的 最 短路 径 的 弧 的 长 度 进行 求 和 的 方式 得 到 。 最 后 ， 有 度量 
的 MDS 被 应 用 于 曲面 距离 矩阵 上 ， 用 来 寻找 低 维 的 投影 。 

我 们 在 本 章 中 关注 的 对 象 是 观测 变量 为 连续 变量 的 模型 。 我 们 也 可 以 考虑 具有 连续 潜在 
变量 以 及 离散 官 色 变量 的 模型 ， 这 就 产生 了 潜在 特征 模型 (latent trait model) (Bartholomew, 
1987) 。 在 这 种 情况 下 ， 连 续 潜在 变量 上 的 积分 无 法 解析 地 计算 ， 即 使 潜在 变量 与 观测 变量 之 
间 具 有 线性 关系 的 时 候 也 是 如 此 ， 因 此 我 们 需要 更 复杂 的 技术 。Tipping (1999) 在 一 个 具有 二 
维 潜在 空间 的 模型 中 使 用 变 分 推断 方法 ， 使 用 一 个 二 值 的 数据 集 可 以 进行 可 视 化 ， 这 与 使 
用 PCA 对 连续 数据 可 视 化 的 情形 类 似 。 注 意 ， 这 个 模型 是 4.5 节 讨论 的 贝 叶 斯 logistic 回 归 问 题 的 
对 偶 问 题 。 在 logistic 回 归 的 情形 中 ， 我 们 有 特征 向 量 加 的 Y 次 观测 ， 特 征 向 量 使 用 一 个 单一 的 
权 向 量 w 进 行 参数 描述 ， 而 在 潜在 空间 可 视 化 模型 中 ， 存 在 一 个 单一 的 潜在 空间 变量 zx (类 似 
于 %) 以 及 潜在 变量 wi 的 N 个 副本 。Collins et al. (2002) 将 概率 潜在 变量 模型 推广 到 了 一 般 的 
指数 族 分 布 的 情形 。 

我 们 已 经 注意 到 ， 通 过 使 用 一 个 恰当 的 非 线 性 变换 作用 于 高 斯 随机 变量 上 ， 我 们 可 以 建立 任 
意 的 概率 分 布 。 这 个 结论 被 用 于 更 一 般 的 潜在 变量 模型 中 ， 被 称 为 密度 网 络 (density network) 
(MacKay, 1995; MacKay and Gibbs, 1999) ， 其 中 非 线 性 函数 由 多 层 神 经 网 络 控制 。 如 果 网 络 
有 足够 多 的 隐 含 结 点 ， 那 么 它 能 够 以 任意 的 精度 近似 给 定 的 非 线性 函数 。 如 此 灵活 的 模型 的 一 
个 负面 效果 是 ， 似 然 函 数 所 需 的 潜在 变量 上 的 积分 无 法 解析 地 计算 。 相 反 ， 似 然 函 数 可 以 通过 
从 高 斯 先 验 概率 分 布 中 采样 ， 使 用 蒙特 卡 罗 方 法 近似 。 这 样 ， 在 潜在 变量 上 的 积分 变 成 了 一 个 
简单 的 求 和 ， 求 和 式 中 的 每 一 项 对 应 于 一 个 样本 。 然 而 ， 由 于 为 了 得 到 边缘 概率 分 布 的 一 个 准 
确 的 表示 ， 我 们 需要 相当 多 的 数据 点 ， 因 此 这 个 方法 的 计算 代价 很 高 。 

如 果 我 们 考虑 非 线 性 函数 的 一 个 更 加 受 限 的 形式 ， 并 且 恰 当地 选择 离散 变量 概率 分 布 ， 那 么 
我 们 可 以 建立 一 个 离散 变量 模型 ， 这 个 模型 是 非 线 性 的 ， 并 且 训 练 上 很 高 效 。 生 成 式 地 形 映 
射 (generative topographic mapping) 或 者 GTM (Bishop et al., 1996; Bishop et al., 1997a; Bishop et 
al., 1998b) 使 用 一 个 潜在 的 概率 分 布 ， 这 个 概率 分 布 由 潜在 空间 (通常 是 二 维 的 ) 上 的 delta 函 
数 的 有 限 个 正规 格 点 定义 。 这 样 ， 在 这 个 潜在 空间 中 的 积分 只 需 对 每 个 格 点 位 置 上 的 贡献 进行 
求 和 即 可 。 非 线性 映射 由 一 个 线性 回归 模型 给 出 ， 这 个 线性 模型 允许 一 般 的 非 线 性 性 质 ， 同 时 
使 得 映射 是 可 调节 参数 的 一 个 线性 函数 。 注 意 ， 由 于 维度 灾难 造成 的 线性 回归 模型 的 局 限 性 
在 GTM 中 没有 出 现 ， 因 为 流 形 通常 具有 两 个 维度 ， 与 数据 空间 的 维度 无 关 。 这 两 种 选择 的 
一 个 结果 是 似 然 函数 可 以 用 封闭 的 形式 解析 地 表示 ， 可 以 使 用 EM 算法 高 效 地 最 优化 。 生 成 
的 GTM 模 型 将 一 个 二 维 的 非 线性 流 形 按照 数据 集 进 行 调节 ， 并 且 通 过 计算 数据 点 的 潜在 空间 上 
的 后 验 概率 分 布 ， 数 据点 可 以 映射 回 潜在 空间 ， 用 于 数据 的 可 视 化 。 图 12.21 给 出 了 使 用 线 
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图 12.21: 使 用 PCA ( 左 图 ) 和 GTM ( 右 图 ) 对 石油 流 数 据 集 进行 可 视 化 。 对 于 GTM 模 型 ， 每 个 数据 点 都 
画 在 了 潜在 空间 的 后 验 概率 分 布 的 均值 位 置 。GTM 模 型 的 非 线性 性 质 使 得 数据 点 分 组 之 间 的 划分 可 以 更 
明显 地 看 出 。 


性 PCA 和 非 线 性 GTM 对 石油 流 数 据 进 行 可 视 化 的 对 比 。 

GTM 可 以 被 看 成 一 个 更 早 的 模型 的 概率 化 版 本 ， 这 个 模型 被 称 为 自 组 织 映射 (self 
organizing map) ， 或 者 SOM (Kohonen, 1982; Kohonen, 1995) ， 它 也 将 二 维 非 线性 流 形 表示 为 
离散 点 的 正规 数组 。SOM 与 开 均 值 算法 有 些 相 似 ， 因 为 数据 点 被 分 配 到 附近 的 代表 向 量 中 ， 
然后 被 更 新 。 初 始 阶段 ， 代 表 向 量 被 随机 分 布 。 在 训练 阶段 ， 它 们 自 组 织 ”， 来 近似 一 个 光 
滑 的 流 形 。 然 而， 与 KX 均值 不 同 ，SOM 没 有 优化 任何 具有 有 良好 定义 的 代价 函数 (Erwin et al,， 
1992) ,使 得 设置 模型 的 参数 以 及 评估 收敛 变 得 十 分 困难 。 并 且 不 能 保证 “ 自 组 织 " 会 发 生 ， 因 
为 它 依 赖 于 对 于 特定 数据 集 的 恰当 的 参数 选择 。 

相反 ，GTM 最 优化 对 数 似 然 画 数 ， 得 到 的 模型 定义 了 数据 空间 的 一 个 概率 密度 。 事 实 上 ， 
它 对 应 于 一 个 受 限 的 高 斯 混合 ， 其 中 各 个 分 量 共享 一 个 相同 的 方差 ， 均值 被 限制 在 一 个 光滑 的 
二 维 流 形 中 。 概 率 的 基础 也 使 得 定义 GTM 的 推广 形式 很 容易 (Bishop et al., 1998a) ， 例 如 处 理 
缺失 值 的 贝 叶 斯 方法 ， 对 离散 变量 的 一 个 系统 化 的 推广 ， 使 用 高 斯 过 程 来 定义 流 形 ， 或 者 层次 
化 GTM 模 型 (Tino and Nabney, 2002) 。 

由 于 GTM 中 的 流 形 被 定义 为 连续 曲面 ， 而 不 像 SOM 那 样 仅 仅 定义 一 个 代表 向 量 ， 因 此 可 以 
计算 放大 因子 (magnification factor) ， 对 应 于 拟 合 数据 集 时 所 需 的 对 流 形 的 局 部 放大 或 压缩 
(Bishop et al., 1997b) ， 也 可 以 计算 方向 曲率 (directional curvature) (Tino et al., 2001) 。 可 
以 使 用 投影 数据 进行 可 视 化 ， 并 且 使 我 们 能 够 更 深刻 地 认识 这 个 模型 。 


12.5 ”练习 


(12.1) GC*) 本 练习 中 ， 我 们 使 用 归纳 法 证 明 在 M 维 子 空 间 上 的 线性 投影 中 ， 最 大 化 投影 
数据 方差 的 投影 由 数据 协 方差 矩阵 S (由 公式 〈12.3) 定义 ) 的 对 个 特征 向 量 定义 ， 对 应 于 M 个 
最 大 的 特征 值 。12.1 节 证 明了 M = 1 的 情况 下 的 这 个 结果 。 现 在 假设 结果 对 于 某 个 一 般 的 M 值 成 
立 ， 证 明 它 对 于 MM + 1 维 也 成 立 。 为 了 证 明 这 一 点 ， 首 先 令 投影 数据 的 方差 关于 定义 了 数据 空 
间 的 新 方向 的 向 量 wax+1i 的 导数 等 于 零 。 这 可 以 通过 考虑 下 面 的 限制 条 件 完 成 : 向 量 w+1 正 交 
于 存在 的 向 量 wl,.…… ,wy， 且 已 经 被 归 一 化 为 单位 长 度 。 使 用 拉 格 朗 日 乘 数 法 来 强制 满足 这 些 
限制 。 然 后 使 用 向 量 wi,.…. ,ww 的 单位 正 交 性 质证 明 新 的 向 量 ww+l 是 5 的 一 个 特征 向 量 。 最 
后 ， 证 明 如 果 特 征 向 量 被 选 为 对 应 于 Aw+1 的 特征 向 量 ， 那 么 方差 被 最 大 化 ， 其 中 特征 值 按照 降 
序 排序 。 

(12.2) ”GC%*) 证 明 ， 公式 〈12.15) 给 出 的 PCA 失 真 度量 J] 关 于 wi 的 最 小 值 ， 在 满足 单位 正 
交 性 的 限制 条 件 (12.7) 的 情况 下 ， 出 现在 wi 是 数据 协 方差 算 阵 5S 的 特征 向 量 的 情形 中 。 为 了 证 


明 这 一 点 ， 引 入 拉 格 朗 日 乘 数 的 矩阵 夸 ， 每 个 拉 格 朗 日 乘 数 有 对 应 于 一 个 限制 条 件 ， 从 而 修改 
后 的 失真 度量 用 和 矩阵 的 记号 表示 为 
i {D's0} FTr {H(I 一 DD)) (12.93) 
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其 中 U 是 一 个 D x (D 一 MM) 的 矩阵 ， 列 为 wi;。 现 在 关于 最 小 化 了 J， 证 明 解 满足 SU = U 瑟 。 很 

明显 ,一 个 可 能 的 解 是 UU 的 列 是 S$ 的 特征 向 量 ， 此 时 瑟 是 一 个 对 角 和 矩阵 ， 包 含 对 应 的 特征 值 。 

为 了 得 到 一 般 的 解 ， 证 明 瑟 可 以 被 假设 为 对 称 和 矩阵， 然后 使 用 特征 向 量 展开 证 明 SU = U 瑟 得 

到 的 J 与 0 的 列 是 S$ 的 特征 向量 这 一 具体 的 解 对 应 的 J 相同 。 由 于 这 些 解 都 是 独立 的 ， 因 此 比较 

方便 的 做 法 是 选择 特征 向 量 解 。 

一 (12.3) (*) 验证 公式 〈12.30) 定义 的 特征 向 量 被 归 一 化 为 单位 长 度 ， 假 设 特征 向 量 v; 具 有 
位 长 度 。 

(12.4) (*) 假设 我 们 使 用 一 个 一 般 的 高 斯 分 布 N(z | rm, 马 ) 来 代替 概率 PCA 模 型 中 的 零 均 
值 单位 协 方差 潜在 空间 概率 分 布 (12.31) 。 通 过 重新 定义 模型 的 参数 ， 证 明 ， 对 于 m 和 的 任 
意 合法 的 选择 ， 这 个 模型 都 会 得 到 完全 相同 的 观测 变量 上 的 边缘 概率 p(x)。 

(12.5) ”CG*) 令 z 为 D 维 随机 变量 ， 服 从 高 斯 分 布 N(zx | 4,)， 考 虑 y = 4z 十 b 定 义 
的 M 维 随机 变量 ， 其 中 4 是 一 个 M x D 的 矩阵 。 证 明 ，y 也 是 一 个 高 斯 分 布 ， 并 且 寻 找 它 的 均 
值 和 协 方 差 的 表达 式 。 讨 论 M < D,M = D 以 及 M > D 时 的 这 个 高 斯 分 布 的 形式 。 

(12.6) (*) 画 出 12.2 节 介绍 的 概率 PCA 模 型 的 有 向 概率 图 ， 其 中 观测 变量 z 的 分 量 显 式 地 
表示 为 单独 的 结 点 。 从 而 证 明 ， 概 率 PCA 模 型 与 8.2.2 节 讨论 的 朴素 贝 叶 斯 模型 具有 相同 的 独立 
性 结构 。 

(12.7) ” (XY) 通过 使 用 一 般 的 分 布 的 均值 和 协 方差 的 结果 (2270) 和 (2.271) ， 推 导 概 
率 PCA 模 型 中 的 边缘 概率 分 布 pz(z) 的 结果 (12.35) 。 

(12.8) ”CG*) 通过 使 用 公式 (2.116) 给 出 的 结果 ,证 明 概 率 PCA 模 型 的 后 验 概率 分 
布 p(z | ZY) 为 (12.42) 。 

(12.9) (*) 验证 ， 对 概率 PCA 模 型 的 对 数 似 然 函 数 〈12.43) 关于 参数 /进行 最 大 化 会 得 到 
结果 jwr 三 元 ， 其 中 丈 是 数据 向 量 的 均值 。 

(12.10) (it#) 通过 计算 概率 PCA 模 型 的 对 数 似 然 函数 (12.43) 关于 参数 /的 二 阶 导 数 ， 证 
明 驻 点 jwr = 3% 表示 唯一 的 最 大 值 。 

(12.11) ”CY*) 证 明 ， 在 极限 o? 一 0 的 情况 下 ， 概 率 PCA 模 型 的 后 验 均值 会 变 为 主子 空间 的 
正 交 投影 ， 与 传统 的 PCA 相 同 。 

(12.12) ”GC*) 对 于 o? > 0， 证 明 ， 与 正 交 投影 相 比 ， 概 率 PCA 模 型 的 后 验 均 值 会 向 着 原点 
偏 移 。 

(12.13) ”CG*) 证 明 ， 根据 传统 PCA 的 最 小 平方 投影 代价 ， 在 概率 PCA 模 型 下 ， 一 个 数据 点 





t=Wui( Wh Wu) MElz|2) (12.94) 


(12.14) (*) MM 维 潜在 空间 和 DD 维 数据 空间 的 概率 PCA 模 型 的 协 方差 矩阵 中 的 独立 参数 的 
数量 有 公式 (12.51) 给 出 。 验 证 在 M = D 一 1 的 情况 下 ， 独 立 参 数 的 数量 与 一 般 的 高 斯 分 布 的 
协 方差 相同 ， 而 对 于 MM = 0 的 情形 ， 它 与 各 向 同性 的 高 斯 分 布 的 协 方差 相同 。 

(12.15) ”(**) 通过 对 完整 数据 对 数 似 然 函 数 的 期 望 (12.53) 进行 最 大 化 ， 推 导 概 率 PCA 模 
型 的 M 步 骤 方 程 (12.56) 和 (12.57) 。 

(12.16) (sy) 在 图 12.11 中 ， 我 们 给 出 了 概率 PCA 模 型 的 一 个 应 用 ， 数 据 集 里 的 某 些 数据 
值 随机 缺失 。 推 导 在 这 种 情况 下 最 大 化 概率 PCA 模 型 的 似 然 函 数 的 EM 算法 。 注 意 ，{zn} 以 及 属 
于 向 量 {xn} 的 分 量 的 缺失 数据 现在 都 是 潜在 变量 。 证 明 在 所 有 数据 值 都 被 观测 到 的 具体 情况 
下 ， 这 就 简化 为 了 12.2.2 节 推导 的 概率 PCA 模 型 的 EM 算法 。 

(12.17) ”GY) 令 W 是 一 个 Dx M 的 矩阵 ， 它 的 列 定 义 了 镶 幅 在 D 维 数据 空间 中 的 一 
个 MM 维 线性 子 空间 ， 令 4 是 一 个 D 维 向 量 。 给 定 一 个 数据 集 {zw}， 其 中 n = 1,.…. ,NN， 我 们 可 以 














使 用 MM 维 向 量 的 集合 {zn} 上 的 一 个 线性 映射 近似 数据 点 ， 从 而 zn 由 Wzn 十 4 近似。 关联 的 平方 
和 重建 代价 为 
J=O len -4p— Weznl (12.95) 
n=1 


首先 证 明 J 关 于 4 的 最 小 化 会 产生 一 个 类 似 的 表达 式 ， 其 中 zw 和 zn 分 别 被 替换 为 零 均 值 变 

量 zn 一 元 和 zn 一 之 ，T 和 z 表 示 样 本 均值 。 然 后 ， 证 明 J 关 于 zn 的 最 小 化 保持 WW 固定 ) 会 得 

到 PCA 的 E 步 又 (12.58) ，J 关 于 W 最 小 化 保持 {zn} 固 定 ) 会 得 到 PCA 的 M 步 又 (12.59) 。 
(12.18) (*) 推导 12.2.4 节 描述 的 因子 分 析 模 型 的 独立 参数 数量 的 表达 式 。 
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(12.19) Gx*) 证 明 12.2.4 节 描述 的 因子 分 析 模型 对 于 潜在 空间 的 坐标 系 旋 转 具 有 不 变性 。 

(12.20) ”(%*) 通过 考虑 二 阶 导数 ， 证 明 12.2.4 节 讨论 的 因子 分 析 模 型 的 对 数 似 然 函 数 的 关 
于 参数 /的 唯一 驻 点 是 公式 (12.1) 定义 的 样本 均值 。 并 且 证 明 这 个 驻 点 是 一 个 最 大 值 点 。 

(12.21) ”CGC%*) 推导 因子 分 析 模型 的 EM 算法 的 E 步 又 公式 (12.66) 和 (12.67) 。 注 意 ， 根 
据 练 习 12.20 的 结果 ， 参 数 几 可 以 被 替换 为 样本 均值 z。 

(12.22) (x*) 写 出 因子 分 析 模 型 的 完整 数据 对 数 似 然 函 数 的 期 望 的 表达 式 ， 从 而 推导 出 对 
应 的 M 步 骤 方 程 (12.69) 和 〈12.70) 。 

(12.23) (*) 画 出 表示 概率 PCA 模 型 的 离散 混合 的 有 向 概率 图 模型 ， 其 中 每 个 PCA 模 型 有 
自己 的 厂 ,w 和 o 的 值 。 现 在 ， 画 一 个 修改 的 图 ， 其 中 这 些 参 数值 被 混合 分 布 中 的 各 个 分 量 所 共 
享 


(12.24) ”C+*) 在 2.3.7 节 ， 我 们 看 到 学 生 纷 布 可 以 被 看 做 高 斯 分 布 的 无 穷 混 合 ， 其 中 我 们 
关于 连续 潜在 变量 进行 积分 。 通 过 使 用 这 种 表示 方法 ， 形 式 化 地 表示 给 定 一 组 观测 数据 点 的 条 
件 下 的 多 元 学 生 纷 布 的 对 数 似 然 函 数 进行 最 大 化 的 EM 算法 ， 并 推导 E 步 又 方程 和 M 步 又 方程 的 
形式 。 

(12.25) ”GC*) 考虑 一 个 线性 高 斯 潜在 变量 模型 ， 它 具有 潜在 空间 分 布 p(z) = N(x | 0, 了)， 
以 及 观测 变量 上 的 条 件 概 率 分 布 p(z | z) = N(x | Wz 十 4,)， 其 踢 是 一 个 任意 的 对 称 正定 
噪声 协 方差 矩阵 。 现 在 假设 我 们 对 数据 变量 进行 一 个 非 奇 异 的 线性 变换 z 一 4z， 其 中 4 是 
一 个 D x D 的 矩阵 。 如 果 jwyr, Wmr 和 mi 表示 对 应 于 原始 的 未 变换 数据 的 最 大 似 然 解 ， 证 
明 Ajwwr, AW mr 和 A 旬 wrA" 表 示 变 换 后 的 数据 集 的 对 应 的 最 大 似 然 解 。 最 后 ， 证 明 模 型 的 形 
式 在 下 面 两 种 情况 下 具有 不 变性 : (1) A 是 一 个 对 角 和 矩阵 ， 玫 是 一 个 对 角 和 矩阵 。 这 对 应 于 因子 
分 析 的 情形 。 变 换 后 的 更 仍然 是 对 角 的 ， 因 此 因子 分 析 在 数据 变量 的 分 量 之 间 的 重新 缩放 是 
共同 变化 的 (covariant) 。 (2) A 是 正 交 矩阵， 正比 于 单位 矩阵 ， 即 = c27。 这 对 应 于 概 
率 PCA。 变 换 后 的 矩阵 更 仍然 正比 于 单位 和 矩阵， 因此 概率 PCA 在 数据 空间 的 坐标 轴 的 旋转 下 是 
共同 变化 的 ， 这 与 传统 的 PCA 的 情形 相同 。 

(12.26) ” (G*) 证 明 满足 (12.80) 的 任意 向 量 aj; 也 满足 (12.79) 。 并 且 证 明 对 于 
(12.80) 的 任意 具有 特征 值 的 解 ， 我 们 可 以 加 上 具有 和 零 特征 值 的 KK 的 特征 向 量 的 任意 倍数 ， 
得 到 (12.79) 的 一 个 解 ， 它 也 具有 特征 值 M。 最 后 ， 证 明 这 样 的 修改 不 会 影响 公式 (12.82) 给 
出 的 主 成 分 投影 。 

(12.27) (+) 证 明 ， 在 核 PCA 中 ， 如 果 我 们 选择 k(x, z') = z7z' 的 核 ， 那 么 传统 的 PCA 会 
被 作为 一 个 具体 的 实例 恢复 出 来 。 

(12.28) ”CGC%) 使 用 概率 密度 在 变量 替换 下 的 变换 性 质 (1.27) ， 证 明 ， 任意 的 概率 密 
度 p(y) 都 可 以 从 一 个 固定 的 处 处 非 零 的 概率 密度 q(x) 中 得 到 ,方法 是 进行 一 个 非 线 性 的 变量 替 
换 y = f(x)， 其 中 f(z) 是 一 个 单调 递增 的 函数 ， 从 而 0 < (zx) < oo。 写 出 f(x) 满足 的 微分 方 
程 ， 画 图 说 明 概 率 密度 的 变换 。 

(12.29) ”GC*) 假设 两 个 变量 1 和 是 独立 的 ， 从 而 p(z1, 22) = p(z1)p(z2)。 证 明 变 量 之 间 的 
协 方差 矩阵 是 对 角 和 矩阵 。 这 表明 独立 性 对 于 两 个 变量 不 相关 是 一 个 充分 条 件 。 现 在 考虑 两 个 变 
量 WW 和 yo。， 其 中 yy 在 0 附近 对 称 分 布 ， 且 yo = 只 。 写 出 条 件 概 率 分 布 p(ya | 1)。 我 们 观察 到 它 是 
依赖 于 册 的 ， 证 明 两 个 变量 不 是 独立 的 。 现 在 证 明 两 个 变量 之 间 的 协 方差 矩阵 同样 是 对 角 的 。 
为 了 证 明 这 一 点 ， 使 用 关系 p(y1,y2) = p(y1)p(y2 | 妇 ) 证 明 非 对 角 线 项 是 零 。 这 个 反例 证 明了 零 
相关 性 不 是 条 件 独立 的 充分 条 件 。 
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13 ”顺序 数据 


本 书目 前 为 止 ， 我 们 主要 的 注意 力 集中 在 数据 集 里 的 数据 点 是 独立 同 分 布 的 情形 。 这 个 假设 
使 得 我 们 将 似 然 函 数 表示 为 在 每 个 数据 点 处 计算 的 概率 分 布 在 所 有 数据 点 上 的 乘积 。 然 而 ， 对 
于 许多 应 用 来 说 ， 独 立 同 分 布 的 假设 不 成 立 。 这 里 ， 我 们 考虑 这 样 的 数据 集中 的 一 个 重要 的 类 
型 ， 即 描述 了 顺序 数据 的 数据 集 。 这 些 数据 集 通 常 产生 于 沿 着 时 间 序 列 进行 的 测量 ， 例 如 某 个 
特定 位 置 的 连续 若干 天 的 降水 量 测 量 ， 或 者 每 天 汇率 的 值 ， 或 者 对 于 语音 识别 任务 ， 在 连续 的 
时 间 框 架 下 的 声学 特征 。 图 13.1 给 出 了 一 个 涉及 到 语音 数据 的 例子 。 顺 序数 据 也 可 以 在 时 间 序 列 
以 外 的 问题 中 出 现 ， 例 如 一 段 DNA 上 的 碱 基 对 序列 ， 或 者 一 个 英语 句子 中 的 字符 序列 。 方 便 起 
见 ， 我 们 有 时 会 用 过 去 观测 或 者 未 来 观测 来 称呼 某 个 观测 。 然 而 ， 本 章 中 研究 的 模型 同样 适 
用 于 所 有 形式 的 顺序 数据 ， 而 不 仅仅 是 时 间 序 列 数据 。 

区 分 静止 顺序 分 布 和 非 静 止 顺序 分 布 是 很 有 用 的 。 在 静止 分 布 中 ， 数 据 会 随 着 时 间 发 生变 
化 ,但 是 生成 数据 的 概率 分 布 保持 不 变 。 对 于 更 复杂 的 非 静 止 分 布 的 情形 ， 生 成 概率 本 身 会 随 
着 时 间 变 化 。 这 里 ， 我 们 关注 的 是 静止 分 布 的 情形 。 

对 于 许多 应 用 来 说 ， 例 如 金融 预测 ， 我 们 希望 能 够 在 给 定时 间 序 列 中 的 前 一 个 观测 值 的 条 件 
下 ， 预 测 下 一 个 观测 值 。 直 觉 上 讲 ， 我 们 会 猜想 ， 与 历史 的 观测 相 比 ， 当 前 的 观测 值 会 为 预测 
未 来 值 提供 更 多 的 信息 。 图 13.1 的 例子 表明 ， 语 音 谱 的 连续 观测 确实 具有 高 度 的 相关 性 。 此 外 ， 
考虑 未 来 的 观测 对 所 有 之 前 的 观测 的 一 个 一 般 的 依赖 关系 是 不 现实 的 ， 因 为 这 样 一 个 模型 的 
复杂 度 会 随 着 观测 数量 的 增加 而 无 限制 地 增长 。 这 使 得 我 们 要 考虑 马尔 科 夫 模型 (Markov 
model) ， 其 中 我 们 假定 未 来 的 预测 仅 与 最 近 的 观测 有 关 ， 而 独立 于 其 他 所 有 的 观测 。 

虽然 这 样 的 模型 可 以 计算 , 但 是 仍然 具有 很 严重 的 局 限 性 。 通 过 引入 潜在 变量 ， 我 们 可 以 得 
到 一 个 更 加 一 般 的 框架 ， 同时 仍然 保持 计算 上 的 可 处 理性 ， 这 就 引出 了 状态 空间 模型 (state 
space model) 。 与 第 ? 章 和 第 12 章 一 样 ， 我 们 会 看 到 复杂 的 模型 可 以 从 简单 的 成 分 中 构建 ， 特 别 
地 ， 从 指数 族 分 布 中 构建 ， 并 且 可 以 使 用 概率 图 模型 的 框架 进行 描述 。 这 里 ， 我 们 关注 状态 空 
间 模 型 的 两 个 最 重要 的 例子 ， 即 隐 马 尔 可 夫 模 型 (hidden Markov model) ， 其 中 潜在 变量 是 离 
散 的 ， 以 及 线性 动态 系统 (linear dynamical system) ， 其 中 潜在 变量 服从 高 斯 分 布 。 这 两 个 模 
型 都 使 用 具有 树 结 构 〈 没 有 环 ) 的 有 向 图 描述 ， 这 样 就 可 以 使 用 加 和 -乘积 算法 来 高 效 地 进行 推 
断 。 














13.1 马尔 科 夫 模型 


处 理 顺 序数 据 的 最 简单 的 方式 是 忽略 顺序 的 性 质 ， 将 观测 看 做 独立 同 分 布 ， 对 应 于 图 13.2 所 
示 的 图 。 然 而 ， 这 种 方法 无 法 利用 数据 中 的 顺序 模式 ， 例 如 序列 中 距离 较 近 的 观测 之 间 的 相关 
性 。 例 如 ,假设 我 们 观测 一 个 二 值 变量 ， 这 个 二 值 变 量 表示 某 一 天 是 否 下 雨 。 给 定 这 个 变量 的 
一 系列 观测 ， 我 们 希望 预测 下 一 天 是 否 会 下 雨 。 如 果 我 们 将 所 有 的 数据 都 看 成 独立 同 分 布 的 ， 
那么 我 们 能 够 从 数据 中 得 到 的 唯一 的 信息 就 是 雨天 的 相对 频率 。 然 而 ， 在 实际 生活 中 ， 我 们 知 
道 天 气 经 常会 呈现 出 持续 若干 天 的 趋势 。 因 此 ， 观 测 到 今天 是 否 下 雨 对 于 预测 明天 是 否 下 雨 会 
有 极 大 的 帮助 。 

为 了 在 概率 模型 中 表示 这 种 效果 ， 我 们 需要 放松 独立 同 分 布 的 假设 。 完 成 这 件 事 的 一 种 最 简 
单 的 方式 是 考虑 马尔 科 夫 模型 (Markov model) 。 首 先 我 们 注意 到 ， 不 失 一 般 性 ， 我 们 可 以 使 
用 概率 的 乘积 规则 来 表示 观测 序列 的 联合 概率 分 布 ， 形 式 为 








N 
p(z1,..., TN) = p(T1) [Ce | £21,..., Pn-1) (13.1) 
n=2 


如 果 我 们 现在 假设 右 侧 的 每 个 条 件 概率 分 布 只 与 最 近 的 一 次 观测 有 关 ， 而 独立 于 其 他 所 有 之 前 
的 观测 ， 那 么 我 们 就 得 到 了 一 阶 马尔 科 夫 链 (first-order Markov chain) ， 如 图 13.3 所 示 。 这 个 模 
型 中 ，N 次 观测 的 序列 的 联合 概率 分 布 为 
N 
p(y (oi) pl | was) (13.2) 


n=2 
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图 13.1: 单词 "Bayes' theorem 的 声音 分 析 图 ， 画 出 了 谱系 数 的 强度 与 时 间 的 关系 。 


@ ,二 X3 . X4 a 


图 13.2: 对 顺序 观测 建 模 的 最 简单 的 方法 是 将 它们 看 做 独立 的 ， 对 应 于 没有 链接 的 图 。 


.@ ee -@ XA4 - 


图 13.3: 观测 {wj} 的 一 阶 马尔 科 夫 链 ， 其 中 ， 特 定 的 观测 2 的 条 件 概率 分 布 p(x | zw_1) 只 以 前 一 次 观 
测 z。 ;为 条 件 。 
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图 13.4: 一 个 二 阶 马 尔 科 夫 链 ， 其 中 特定 的 观测 zw 依 赖 于 前 两 次 观测 zw-1 和 zw-? 的 值 。 


根据 4- 划 分 的 性 质 ， 给 定时 刻 " 之 前 的 所 有 观测 ， 我 们 看 到 观测 zn 的 条 件 概 率 分 布 为 
D(zZn | T1,... , Tn—1) = p(wn | Zn-1) (13.3) 


从 公式 (13.2) 开始 ， 使 用 概率 的 乘积 规则 ， 这 个 等 式 很 容易 验证 。 因 此 如 果 我 们 使 用 这 样 的 模 
型 预测 序列 中 的 下 一 次 观测 ， 那 么 预测 分 布 只 依赖 于 最 近 的 一 次 观测 的 值 ， 而 与 所 有 更 早 的 观 
测 都 无 关 。 

在 这 种 模型 的 大 部 分 应 用 中 ， 条 件 概 率 分 布 p(xn | zw_1) 被 限制 为 相等 的 ， 对 应 于 静止 时 间 
序列 的 假设 。 这 样 ， 这 个 模型 被 称 为 同 质 马 尔 科 夫 链 (homogeneous Markov chain) 。 例 如 ， 如 
果 条 件 概率 分 布依 赖 于 可 调节 的 参数 (参数 的 值 可 以 从 训练 数据 中 确定 ) ， 那 么 链 中 所 有 的 条 
件 概 率 分 布 会 共享 相同 的 参数 值 。 

虽然 这 比 独立 的 模型 要 一 般 一 些 ， 但 是 仍然 非常 受 限 。 对 于 许多 顺序 的 观测 来 说 ， 我 们 预计 
若干 个 连续 观测 的 数据 的 趋势 会 为 下 一 次 预测 提供 重要 的 信息 。 一 种 让 更 早 的 观测 产生 影响 的 
方法 是 使 用 高 阶 的 马尔 科 夫 链 。 如 果 我 们 允许 预测 除了 与 当前 观测 有 关 以 外 ， 还 与 当前 观测 的 
前 一 次 观测 有 关 ， 那 么 我 们 就 得 到 了 二 阶 马尔 科 夫 链 ， 如 图 13.4 所 示 。 现 在 ， 联 合 概 率 分 布 为 

N 
p(T1,..., TN) = p(T1)P(T2 | £1) es | Zn_1, Tn_2) (13.4) 
也 一 3 
与 之 前 一 样 ， 使 用 d- 划 分 或 者 直接 计算 ,我们 看 到 给 定 Zn_1 和 zn_2 的 条 件 下 zn 的 条 件 概率 分 布 
与 所 有 的 21,.…. ,zn_3 的 观测 无 关 。 现 在 ， 每 次 观测 由 之 前 的 两 次 观测 所 影响 。 我 们 可 以 类 似 地 
考虑 扩展 到 M 阶 马尔 科 夫 链 ， 其 中 一 个 特定 的 变量 依赖 于 前 MM 个 变量 。 然 而 ， 这 种 增长 的 灵活 
性 是 有 代价 的 ， 因 为 现在 模型 中 参数 的 数量 要 多 得 多 。 假 设 观 测 是 具有 K 个 状态 的 离散 变 
量 ， 那 么 一 阶 马 尔 科 夫 链 中 的 条 件 概率 分 布 p(zn | zn-1) 由 天 一 1 个 参数 指定 ， 每 个 参数 都 对 应 
于 zn-1 的 K 个 状态 ， 因 此 参数 的 总 数 为 K(K 一 1)。 现 在 假设 我 们 将 模型 推广 到 MM 阶 马 尔 科 夫 
链 ， 从 而 联合 概率 分 布 由 条 件 概率 分 布 p(zn | Zn_M,.… ,zn-1) 构 建 。 如 果 变 量 是 离散 变量 ， 且 
条 件 概率 分 布 使 用 一 般 的 条 件 概率 表 的 形式 表示 ， 那 么 这 种 模型 中 参数 的 数量 为 KY% (K 一 1)。 
由 于 这 个 量 随 着 M 指 数 增长 ， 因 此 通常 对 于 大 的 M 来 说 ， 使 用 这 种 方法 是 不 实际 的 。 

对 于 连续 变量 来 说 ， 我 们 可 以 使 用 线性 高 斯 条 件 概率 分 布 ， 其 中 每 个 结 点 都 是 一 个 高 斯 概 

率 分 布 ， 均 值 是 父 结 点 的 一 个 线性 函数 。 这 被 称 为 自 回 归 (autoregressive) 模型 或 者 AR 模型 

(Box et al., 1994; Thiesson et al., 2004) 。 另 一 种 方法 是 为 p(zn | zn_M,.…., zn_1) 使 用 参数 化 的 

模型 ， 例 如 神经 网 络 。 这 种 方法 有 时 被 称 为 抽 头 延迟 线 (tapped delay line) ， 因 为 它 对 应 于 存 
储 〈 延 迟 ) 观测 变量 的 前 面 M 个 值 来 预测 下 一 个 值 。 这 样 ， 参 数 的 数量 远 远 小 于 一 个 一 般 的 模 
型 (例如 此 时 参数 的 数量 可 能 随 着 MM 线性 增长 ) ， 虽然 这 样 做 会 使 得 条 件 概 率 分 布 被 限制 在 一 
个 特定 的 类 别 中 。 

假设 我 们 希望 构造 任意 阶 数 的 不 受 马 尔 科 夫 假设 限制 的 序列 模型 ， 同 时 能 够 使 用 较 少 数量 的 
自由 参数 确定 。 我 们 可 以 引入 额外 的 潜在 变量 来 使 得 更 丰富 的 一 类 模型 能 够 从 简单 的 成 分 中 构 
建 ， 正 如 我 们 在 第 9 章 讨论 混合 概率 分 布 和 第 12 章 讨论 连续 潜在 变量 模型 时 所 做 的 那样 。 对 于 每 
个 观测 zn， 我 们 引入 一 个 对 应 的 潜在 变量 z,，( 类 型 或 维度 可 能 与 观测 变量 不 同 ) 。 我 们 现在 假 
设 潜在 变量 构成 了 马尔 科 夫 链 ， 得 到 的 图 结构 被 称 为 状态 空间 模型 (state space model) ， 如 图 
13.5 所 示 。 它 满足 下 面 的 关键 的 条 件 独 立 性 质 ， 即 给 定 zz 的 条 件 下 ，znm1 和 zn+1 是 独立 的 ， 从 
而 


Se le 2 (13.5) 
这 个 模型 的 联合 概率 分 布 为 
N N 
p(T1),..., TPN, Z1)...,ZN) = p(z1) 1 p(n | = [ze | 局 (13.0) 
7 一 2 n=1 
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图 13.5: 我 们 可 以 使 用 潜在 变量 的 马尔 科 夫 链 来 表示 顺序 数据 ， 每 个 观测 都 以 对 应 的 潜在 变量 的 状态 为 条 
件 。 这 个 重要 的 图 结构 组 成 了 隐 马 尔 科 夫 模型 和 线性 动态 系统 的 基础 。 


使 用 d- 划 分 准则 ， 我 们 看 到 总 存在 一 个 路 径 通过 潜在 变量 连接 了 任意 两 个 观测 变量 zs 和 zm， 并 
且 这 个 路 径 永远 不 会 被 阻隔 。 因 此 对 于 观测 变量 zn+l 来 说 ， 给 定 所 有 之 前 的 观测 ， 条 件 概率 分 
布 p(zn+1 | zZ1 Zn) 不 会 表现 出 任何 的 条 件 独立 性 ， 因 此 我 们 对 zn+1 的 预测 依赖 于 所 有 之 前 
的 观测 。 然 而 ， 观 测 变量 不 满足 任何 阶 数 的 马尔 科 夫 性 质 。 我 们 在 本 章 的 后 面 几 节 会 讨论 如 何 
计算 预测 分 布 。 

对 于 顺序 数据 来 说 ， 这 个 图 描述 了 两 个 重要 的 模型 。 如 果 洪 在 变量 是 离散 的 ， 那 么 我 们 得 到 
了 隐 马 尔 科 夫 模 型 (hidden Markov model) 或 者 HMM (Elliott et al., 1995) 。 注 意 ，HMM 中 的 
观测 变量 可 以 是 离散 的 或 者 是 连续 的 ， 并 且 可 以 使 用 许多 不 同 的 条 件 概 率 分 布 进行 建 模 。 如 果 
潜在 变量 和 观测 变量 都 是 高 斯 变量 ( 结 点 的 条 件 概 率 分 布 对 于 父 结 点 的 依赖 是 线性 高 斯 的 形 
式 ) ， 那 么 我 们 就 得 到 了 线性 动态 系统 (linear dynamical system) 。 




















13.2” 隐 马尔 科 夫 模型 


隐 马 尔 科 夫 模型 可 以 被 看 成 图 13.5 所 示 的 状态 空间 模型 的 一 个 具体 实例 ， 其 中 潜在 变量 是 离 
散 的 。 然 而 ， 如 果 我 们 考察 模型 的 一 个 单一 的 时 间 切 片 ， 那 么 我 们 看 到 它 对 应 于 一 个 混合 概率 
分 布 ， 对 应 的 分 量 密度 为 p(z | z)。 于 是 ， 它 也 可 以 表述 为 混合 概率 模型 的 一 个 推广 ， 其 中 每 个 
观测 的 混合 系数 不 是 独立 地 选择 的 ， 而 是 依赖 于 对 于 前 一 次 观测 的 分 量 的 选择 。HMM 广 泛 
用 于 语音 识别 (Jelinek, 1997; Rabiner and Juang, 1993) 、 自 然 语 言 建 模 (Manning and Schiitze， 
1999) 、 在 线 手 写 识 别 (Nag et al., 1986) 以 及 生物 序列 〈 例 如 蛋白 质 和 DNA) 的 分 析 (Krogh 
et al., 1994; Durbin et al., 1998; Baldi and Brunak, 2001) 。 

与 标准 的 混合 模型 的 情形 相同 ， 潜 在 变量 是 离散 的 服从 多 项 式 分 布 的 变量 z;,， 描 述 了 那个 
混合 分 量 用 于 生成 对 应 的 观测 zn。 与 之 前 一 样 ， 比 较 方 便 的 做 法 是 使 用 1-of- 开 表示 方法 ， 就 像 
第 9 章 那样 。 我 们 现在 让 zn 的 概率 分 布 通过 条 件 概率 分 布 p(zn | zn-_1) 对 前 一 个 潜在 变量 zn_1 产 
生 依赖 。 由 于 潜在 变量 是 开 维 二 值 变量 ， 因 此 条 件 概率 分 布 对 应 于 数字 组 成 的 表格 ， 记 作 4， 
它 的 元 素 被 称 为 转移 概率 (transition probabilities) 。 元 素 为 4 关 三 p( zi = 二 1|zn_1,; 二 1)。 由 
于 它们 是 概率 值 ， 因 此 满足 0 < Ajx < 1 上 日 >j); hjx = 1， 从 而 矩阵 A 有 K(K 一 了) 个 独立 的 参数 。 
这 样 ， 我 们 可 以 显 式 地 将 条 件 概 率 分 布 写 成 





kK Kk 
Wm | os [| [A (13.7) 
k=1 j=1 


初始 潜在 结 点 zi 很 特别 ， 因 为 它 没有 父 结 点 ， 因 此 它 的 边缘 概率 分 布 p(z1) 由 一 个 概率 向 
量 r 表 示 ， 元 素 为 内 二 p(zix = 1)， 即 


K 
war |x) | | (13.8) 
大 EL 


其 中 > 入 Amk 一 1。 

有 了 时 可 以 将 状态 画 成 状态 转移 图 中 的 一 个 结 点 ， 这 样 就 可 以 图 形 化 地 表示 出 转移 和 矩阵。 图 
13.6 给 出 了 K = 3 的 情形 。 注 意 ， 这 不 是 一 个 概率 图 模型 ， 因 为 结 点 不 是 单独 的 变量 而 是 一 个 变 
量 的 各 个 状态 ， 因 此 我 们 用 方 框 而 不 是 圆圈 来 表示 状态 。 
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图 13.6: 转移 图 表示 一 个 模型 ， 它 的 潜在 变量 有 三 种 可 能 的 状态 ， 对 应 于 三 个 方 框 。 黑 线 表 示 转 移 矩 阵 的 
元 素 Ajx。 





n—2 n—1 n n+l 
图 13.7: 如 果 我 们 将 图 13.6 所 示 的 状态 转移 图 在 时 间 上 展开 ， 那 么 我 们 旧 得 到 了 潜在 状态 的 晶 格 图 表示 或 











者 格子 图 表示 。 图 的 每 一 列 对 应 于 一 个 潜在 变量 zn。 


有 时 比较 有 用 的 做 法 是 将 图 13.6 所 示 的 状态 转移 图 在 时 间 上 展开 。 这 给 出 了 潜在 变量 之 间 转 
移 的 男 一 种 表示 方法 ， 被 称 为 唱 格 图 (lattice diagram) 或 者 格子 图 (trellis diagram) 。 图 13.7 给 
出 了 隐 马 尔 科 夫 模型 的 品格 图 。 

可 以 通过 定义 观测 变量 的 条 件 概率 分 布 p(zn | zn,9) 来 确定 一 个 概率 模型 ， 其 中 8 是 控制 
概率 分 布 的 参数 集合 。 这 些 条 件 概率 被 称 为 发 射 概率 (emission probabilities) ， 可 以 是 例如 
(9.11) 这 样 的 高 斯 分 布 〈z 是 连续 变量 ) ， 也 可 以 是 条 件 概率 表格 〈《z 是 离散 变量 ) 。 由 
于 zn 是 观测 值 ， 因 此 对 于 一 个 给 定 的 9 值 ， 概 率 分 布 p(zn | znw 四) 由 一 个 开 维 的 向 量 组 成 ， 对 应 
于 二 值 向 量 z% 的 KK 个 可 能 的 状态 。 我 们 可 以 将 发 射 概率 表示 为 


K 
p(wn | zn,9) = [ [p(wn | Be)” (13.9) 


k=1 


我 们 将 注意 力 集中 在 同 质 的 (homogeneous) 模型 上 ， 其 中 所 有 控制 潜在 变量 的 条 件 概 率 分 
布 都 共享 相同 的 参数 A， 类 似 地 所 有 发 射 概率 分 布 都 共享 相同 的 参数 p (推广 到 更 一 般 的 情形 很 
容易 ) 。 注 意 ， 对 于 一 个 独立 同 分 布 的 数据 集 ， 一 个 混合 模型 对 应 于 参数 Ajk 对 于 所 有 的 7 值 都 
相同 的 情况 ， 从 而 条 件 概率 分 布 p(zn | zn-1) 与 zn-1 无 关 。 这 对 应 于 将 图 13.5 所 示 的 图 模型 中 的 
水 平 链接 都 删除 。 

从 而 观测 变量 和 潜在 变量 上 的 联合 概率 分 布 为 





N N 
p(X,2|10)=p(zi |7) I p(zn | uy] | ww | ernst®) (13.10) 


九 一 2 m=1 
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图 13.8: 从 一 个 隐 马 尔 科 夫 模型 中 进行 采样 的 例子 ， 这 个 模型 的 潜在 变量 z 有 三 个 状态 ， 发 射 概 
率 p(zZ | z) 是 高 斯 概率 ， 其 中 z 是 二 维 的 。(Q) 发 射 概率 密度 为 常数 的 轮 廊 线 ， 对 应 于 潜在 变量 的 三 个 状 
态 。(b) 从 隐 马 尔 科 夫 模型 中 抽取 的 50 个 样本 点 ， 数 据点 的 颜色 对 应 于 生成 它们 的 分 量 的 颜色 ,数据 点 之 
间 的 连 线 表示 连续 的 观测 。 这 里 ， 转 移 矩 阵 是 固定 的 。 在 任何 状态 ， 都 有 5% 的 概率 转移 到 每 个 其 他 的 状 
态 ， 有 90% 的 概率 保持 相同 的 状态 。 
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图 13.9: 三 状态 隐 马 尔 科 夫 模型 的 状态 转移 图 的 例子 。 注 意 ， 一旦 离开 了 某 个 状态 ， 就 无 法 再 次 回 到 这 个 


其 中 关 = {21,.…. ,ZN},Z = {z1,.….,ZN} 和 0 = {7, 4 四 表示 控制 模型 参数 的 集合 。 我 们 关于 
隐 马 尔 科 夫 模型 的 大 部 分 讨论 与 发 射 概率 的 特定 选择 无 关 。 事 实 上 ， 模 型 对 于 一 大 类 发 射 概率 
的 选择 都 是 可 以 计算 的 ， 包 括 离 散 表格 、 高 斯 以 及 混合 高 斯 。 也 可 以 利用 判别 式 模型 例如 
神经 网 络 。 这 些 可 以 用 来 直接 对 发 射 概率 密度 p(z | z) 建 模 ， 也 可 以 用 来 给 出 p(z | z) 的 一 个 
表达 式 ， 这 个 表达 式 可 以 使 用 贝 叶 斯 定理 转化 为 所 需 的 发 射 概率 密度 p(z | z) (Bishop et al,， 
2004) 。 

从 生成 式 的 观点 考虑 隐 马 尔 科 夫 模型 ， 我 们 可 以 更 好 地 理解 隐 马 尔 科 夫 模 型 。 回 忆 一 下 ,为 
了 从 一 个 混合 高 斯 分 布 中 生成 样本 ， 我 们 首先 随机 算 侧 一 个 分 量 ， 选 择 的 概率 为 混合 系数 mk， 
然后 从 对 应 的 高 斯 分 量 中 生成 一 个 样本 向 量 z。 这 个 过 程 重复 六 次 ,产生 个 独立 样本 组 成 的 数 
据 集 。 在 隐 马 尔 科 夫 模型 的 情形 ， 这 个 步骤 修改 如 下 。 首 先 我 们 选择 初始 的 潜在 变量 z; ， 概 
率 由 参数 7 控制 ， 然 后 采样 对 应 的 观测 x1。 现 在 我 们 使 用 已 经 初始 化 的 zi 的 值 ， 根 据 转 移 松 
率 p(z2 | z1) 来 选择 变量 z2 的 状态 。 从 而 我 们 以 概率 Ajx 选 择 z2 的 状态 k， 其 中 k = 1 五。 一 
且 我 们 知道 了 zz ， 我 们 就 可 以 对 z? 采 样 ， 从 而 也 可 以 对 下 一 个 潜在 变量 zs 采样 ， 以 此 类 推 。 这 
是 有 向 图 模型 的 祖先 采样 的 一 个 例子 。 例 如 ， 如 果 我 们 有 一 个 模型 ， 其 中 对 角 和 转移 元 素 Axkx 比 
非 对 角 的 元 素 大 得 多 ， 那 么 一 个 典型 的 数据 序列 中 ， 会 有 连续 很 长 的 一 系列 点 由 同一 个 概率 分 
布 生成 ， 而 从 一 个 分 量 转 移 到 另 一 个 分 量 不 会 经 常 发 生 。 图 13.8 说 明了 从 隐 马 尔 科 夫 模型 生成 样 
本 的 过 程 。 

这 个 标准 的 HMM 模 型 有 很 多 变 体 ， 例 如 可 以 通过 对 转移 矩阵 4 的 形式 进行 限制 的 方式 
进行 限制 (Rabiner, 1989) 。 这 里 我 们 介绍 一 种 在 实际 应 用 中 很 重要 的 变 体 ， 被 称 为 从 无 
到 右 HMM (left-to-right HMM) ， 它 将 A 中 < j 的 元 素 Ajx 设 置 为 零 。 图 13.9 给 出 了 具有 三 个 
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n—2 n—1 n n+l 
图 13.10: 三 状态 从 左 到 右 HMM 的 晶 格 图 ， 其 中 状态 下 标 上 在 每 轮 欠 代 时 最 多 人 允许 加 1。 


二 已 展 

















2 2 2 


图 13.11: 第 一 行 : 在 线 手写 数字 的 例子 。 第 二 行 : 生成 式 地 采样 得 到 的 数字 ， 模 型 时 一 个 从 左 到 右 的 隐 
马尔 科 夫 模型 ， 在 45 个 手写 数字 组 成 的 数据 集 上 进行 训练 。 








状态 的 这 种 HMM 变 体 的 状态 转移 图 。 通 常 对 于 这 种 模型 ， 初 始 状 态 概率 p(z1) 被 修改 ， 使 
得 p(z11) = 1 上 且 p(z1;) = 0,7 关 1， 换 句 话 说 ， 每 个 序列 被 限制 为 从 状态 i = 1 开始 。 转 移 矩 阵 可 
以 进一步 被 限制 ， 来 确保 状态 的 下 标 不 会 发 生 过 大 的 变化 ， 即 如 果 k > 7 十 A， 那么 Aj = 0。 
图 13.10 给 出 了 这 种 模型 的 晶 格 图 。 

隐 马 尔 科 夫 模 型 的 许多 应 用 ， 例 如 语音 识别 或 在 线 字 符 识别 都 使 用 了 这 种 从 左 到 右 的 结构 。 
作为 从 左 到 右 隐 马 尔 科 夫 模 型 的 一 个 例子 ， 我 们 考虑 手写 数字 识别 的 一 个 例子 。 这 个 例子 使 用 
在 线 的 数据 ， 即 每 个 手写 数字 由 钢笔 的 轨迹 与 时 间 的 函数 表示 ， 函 数 的 形式 是 钢笔 坐标 的 一 个 
序列 ， 这 与 附录 A 介绍 的 离线 手写 数字 的 例子 不 同 ， 那 个 数据 集 由 二 维 像素 化 的 图 像 组 成 。 图 
13.11 给 出 了 在 线 手 写 数字 的 例子 。 这 里 ， 我 们 在 由 45 个 数字 2 的 例子 组 成 的 数据 子 集 上 训练 一 
个 马尔 科 夫 模型 。 有 KK = 16 种 状态 ， 每 个 状态 可 以 生成 可 以 生成 固定 长 度 的 线段 ， 它 具有 16 种 
可 能 的 角度 中 的 一 个 ， 因 此 发 射 概率 是 一 个 16 x 16 的 概率 表 ， 与 每 个 状态 下 标的 值 所 允许 的 角 
度 值 相关 联 。 除 了 那些 使 得 状态 下 标 k 不 变 或 者 加 1 的 转移 概率 之 外 ， 其 他 的 转移 概率 全 部 被 设 
置 为 零 。 模 型 使 用 了 25 轮 的 EM 和 迭代 进行 最 优化 。 通 过 生成 式 地 运行 这 个 算法 ， 我 们 可 以 获得 对 
模型 的 一 些 更 深刻 的 认识 ， 如 图 13.11 所 示 。 

隐 马 尔 科 夫 模 型 的 一 个 强大 的 性 质 是 它 对 于 时 间 轴 上 局 部 的 变形 (压缩 和 拉 伸 ) 具有 某 种 程 
度 的 不 变性 。 为 了 理解 这 一 点 ， 考 虑 在 线 手写 数字 例子 中 ， 数 字 2 的 书写 方式 。 一 个 通常 的 手 
写 数字 由 两 个 不 同 的 部 分 组 成 ， 两 个 部 分 连接 处 有 一 个 转折 点 。 数 字 的 第 一 部 分 从 左上 方 开 
始 ， 有 一 个 光滑 的 圆 踊 ， 然 后 向 下 到 转折 点 ， 或 者 在 左下 角 转 一 个 圈 ， 接 下 来 是 第 二 个 近似 于 
直线 的 部 分 ， 扫 到 右 下 方 。 书 写 风格 的 自然 的 变化 会 使 得 这 两 个 部 分 的 相对 大 小 发 生变 化 。 从 
生成 式 的 观点 来 看 ， 这 种 变化 可 以 整合 到 隐 马 尔 科 夫 模型 中 ， 方 法 是 改变 状态 模型 中 保持 在 同 
一 个 状态 的 转移 的 数量 和 在 连续 的 状态 之 间 转 移 的 数量 。 但 是 注意 ， 如 果 数 字 2 用 相反 的 顺序 
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书写 ， 即 从 右 下 角 开 始 ， 结 束 于 左上 角 ， 那 么 即使 笔迹 的 坐标 与 训练 集 里 的 一 个 例子 完全 相 
同 ， 在 这 个 模型 下 的 观测 的 概率 会 非常 小 。 在 语音 识别 的 问题 中 ， 对 时 间 轴 的 变形 与 语 速 的 自 
然 变化 相关 ， 隐 马尔 科 夫 模型 可 以 适应 这 种 变形 ， 不 会 对 这 种 变形 赋予 过 多 的 惩罚 。 

13.2.1 用 于 HMM 的 最 大 似 然 法 


如 果 我 们 观测 到 一 个 数据 集 夭 = {21,.….,zN}， 那 么 我 们 可 以 使 用 最 大 似 然 法 确定 HMM 的 
参数 。 似 然 函数 通过 对 联合 概率 分 布 (13.10) 中 的 潜在 变量 进行 求 和 的 方式 得 到 ， 即 


p(X|10)= >_ p(X,210) (13.11) 
Z 











由 于 联合 概率 分 布 p(X,2 | 9) 无 法 在 n 上 进行 分 解 (与 第 ? 章 关 于 混合 概率 分 布 的 讨论 不 同 ) ， 
因此 我 们 不 能 独立 地 在 每 个 zw 上 进行 求 和 。 我 们 也 不 能 显示 地 完成 这 个 求 和 ， 因 为 有 N 个 变量 
需要 求 和 ， 每 个 都 有 开 个 状态 ， 从 而 总 计 有 天 X 个 求 和 项 。 因 此 求 和 式 中 的 项 的 数量 随 着 链 的 长 
人 
行 的 求 和 。 

我 们 之 前 在 讨论 图 8.32 所 示 的 简单 变量 链 的 推断 问题 时 ,已 经 遇 到 了 一 个 类 似 的 困难 。 那 
里 ,我 们 能 够 使 用 图 的 条 件 独立 性 质 对 求 和 式 重 新 排序 ， 得 到 一 个 计算 代价 与 链 的 长 度 呈 线性 
关系 而 不 是 指数 关系 的 算法 。 我 们 将 类 似 的 方法 应 用 到 隐 马 尔 可 夫 模 型 中 。 

似 然 函 数 表达 式 (13.11) 的 另 一 个 问题 是 ， 由 于 它 对 应 于 混合 概率 分 布 的 一 个 推广 ， 因 此 
它 表示 潜在 变量 的 不 同 配 置 下 ， 对 发 射 概率 进行 求 和 。 因 此 直接 对 这 个 似 然 函数 进行 最 大 化 会 
导致 复杂 的 表达 式 ， 没 有 解析 解 。 这 一 点 与 简单 的 混合 模型 一 样 (回忆 一 下 ， 独 立 同 分 布 数据 
的 混合 模型 是 HMM 的 一 个 具体 实例 ) 。 

于 是 我 们 使 用 期 望 最 大 化 算法 来 寻找 对 隐 马 尔 可 夫 模 型 中 似 然 函数 进行 最 大 化 的 有 效 框 
架 。EM 算 法 的 开始 阶段 是 对 模型 参数 的 某 些 初始 的 选择 ， 我 们 记 作 6 日 。 在 E 步 又 中 ,我 们 使 用 
这 些 参数 找到 潜在 变量 的 后 验 概率 分 布 p(Z | 和 ,6 昌 )。 然 后 ， 我 们 使 用 这 个 后 验 概率 分 布 计算 
完整 数据 似 然 函数 的 对 数 的 期 望 ， 得 到 了 一 个 关于 参数 9 的 函数 Q(6, 9 日 ) ， 定 义 为 


Q(9,65) = > _p(Z|X,0N)Inp(X,Z|0) (13.12) 
Z 

















现在 ， 引 入 一 些 记号 会 比较 方便 。 我 们 使 用 y(zn) 来 表示 潜在 变量 zn 的 边缘 概率 分 布 ， 
用 上 (zw 1 zn) 表 示 两 个 连续 的 潜在 变量 的 联合 后 验 概率 分 布 ， 即 
yzn) = p(zn | X, OF) (13.13) 
€(zn_1,2n) = p(zn_1, zn | X, OF) (13.14) 
对 于 每 个 n 值 ， 我 们 可 以 使 用 K 个 非 负 数 来 存储 Y(zn)， 这 些 数 的 和 等 于 1。 类 似 地 ， 我 们 可 
以 使 用 一 个 由 非 负 数组 成 的 K x K 的 矩阵 来 存储 E(zn_1,zn)， 同 样 加 和 等 于 1。 我 们 也 会 使 


用 Y(znx) 来 表示 znk = 1 的 条 件 概 率 ， 类 似 地 使 用 &(zn-_1,;, znk) 来 表示 后 面 介绍 的 男 一 个 概率 。 
由 于 二 值 随机 变量 的 期 望 就 是 取 值 为 1 的 概率 ， 因 此 我 们 有 


























Jn) = Bhi] 2 (> i (13.15) 
Zn 
€(2n_17, Znk) = Elzn_1,;2ng] = >， E(zn 1 Sn) zn—1,jZnk (13.10) 
之 几 一 1 之 尹 


如 果 我 们 将 公式 (13.10) 的 联合 概率 分 布 p(XX,2Z | 9) 代 入 公式 (13.12) ， 使 用 Y 和 5 的 定 
义 ， 我 们 有 


K N EK kK 
Q(0, 01) = >》 ?7(2ap) ln T 十 > 人 Zng) ln 4 六 
n=2 


志 A =2 j=1 


~ 
| 
将 


(13.17) 
N KFK 
平 > > Yng) ln p(wn | Pi) 
n=1] 
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E 步 又 的 目标 是 高 效 地 计算 y(zn) 和 &(zn-1, zn)， 我 们 后 面 会 详细 讨论 。 
在 M 步 骤 中 ， 我 们 关于 参数 0 = {r, 4, 89} 最 大 化 8(0, 6)， 其 中 我 们 将 Y(zn) 和 é(zn_1, zn) 看 
做 常数 。 关 于 和 4 的 最 大 化 可 以 使 用 拉 格 朗 日 乘 数 法 很 容易 求 出 ， 结 果 为 


YZ1k) 


A (13.18) 
i 


Tk 一 





DE, Ezn_17, Lnk) 

4 = 13.19 

2. DE Dé(zn_17, zni) ( ) 
EM 算法 在 初始 化 时 必须 选择 x 和 A 的 初始 值 ， 这 当然 应 该 遵守 概率 的 加 和 性 质 。 注 意 ， 如 果 
将 "或 4 的 任何 元 素 都 设 为 零 ， 那 么 在 接 下 来 的 EM 更 新 中 也 会 保持 为 零 。 一 个 典型 的 初始 化 步 
又 是 在 满足 加 和 限制 和 非 负 限制 的 条 件 下 ， 为 这 些 参数 随机 选择 初始 值 。 注 意 ， 对 于 从 左 到 右 
的 模型 的 情形 ， 我 们 无 需 对 EM 的 结果 进行 特别 的 修改 ， 只 需 在 4Ajs 的 适当 的 元 素 设置 为 零 即 
可 ， 因 为 这 些 元 素 始终 为 零 。 

为 了 关于 鸣 最 大 化 Q(9,9B)， 我 们 注意 到 公式 (13.17) 中 ， 只 有 最 后 一 项 依赖 于 p， 并 且 
这 一 项 的 形式 与 独立 同 分 布 数据 的 标准 混合 分 布 的 对 应 的 函数 中 的 数据 依赖 项 完全 相同 ， 这 一 
点 可 以 通过 与 高 斯 混合 模型 的 公式 (9.40) 进行 对 比 的 方式 看 出 来 。 这 里 ，y(zn4) 起 着 “责任 ”的 
作用 。 如 果 对 于 不 同 的 分 量 ， 参 数 p, 独 立 ， 那 么 这 一 项 可 以 分 解 为 一 组 项 的 加 和 形式 ， 每 
一 项 对 应 于 一 个 k 值 ， 每 一 项 都 可 以 独立 地 最 大 化 。 这 样 ， 我 们 可 以 简单 地 最 大 化 发 射 概率 
密度 p(x | 8) 的 加 权 的 对 数 似 然 函 数 ， 权 值 为 (zm)。 这 里 ， 我 们 假设 这 个 最 大 化 过 程 可 以 
高 效 地 完成 。 例 如 ， 在 高 斯 发 射 密度 的 情形 下 ,我们 有 p(x | 94) =N(z | jx, x)， 最 大 化 函 
数 Q(9, 9 日 ) 可 得 





N 
2 a 


DI Ynp) (wn — Kr) (Bn — pk)T 


Hx 二 





5 = (13.21) 
L 3 YZng) 
对 于 观测 变量 服从 离散 多 项 式 分 布 的 情形 ， 观 测 变量 的 条 件 概 率 分 布 为 
D 天 
wel (13.22) 
= 
对 应 的 M 步 又 方程 为 
Mik = Sn Ynk) en (13.23) 





3 Y (zng) 
对 于 服从 伯 努 利 分 布 的 观测 变量 ， 可 以 得 到 类 似 的 结果 。 

EM 算法 要 求 有 发 射 概率 分 布 的 参数 的 初始 值 。 一 种 设置 的 方式 是 首先 将 数据 集 看 成 独立 同 
分 布 的 ， 然 后 通过 最 大 似 然 方法 调节 发 射 概率 密度 ， 之 后 使 用 得 到 的 值 来 初始 化 EM 的 参数 。 


13.2.2 前 向 后 向 算法 


接 下 来 我 们 寻找 计算 Y(znb) 和 8(zn 7 2) 的 高 效 的 方法 ， 对 应 于 EM 算法 中 的 E 步 又 。 图 
13.5 给 出 的 隐 马 尔 科 夫 模型 的 图 表示 是 一 棵 树 ， 因 此 我 们 知道 潜在 变量 的 后 验 概率 分 布 可 以 使 用 
两 阶段 的 信息 传递 算法 高 效 地 求 出 。 在 隐 马 尔 可 夫 模 型 这 一 特定 的 问题 中 ， 这 个 被 称 为 前 向 后 
向 算法 (forward-backward) 算法 (Rabiner 1989) ， 或 者 Baum-Welch 算 法 (Baum, 1972) 。 事 
实 上 ， 基 本 算法 有 几 种 变 体 ， 每 个 变 体 都 可 以 根据 沿 着 链 传播 的 信息 的 精确 形式 ， 得 到 精确 的 
边缘 概率 (Jordan, 2007) 。 我 们 会 关注 这 些 变 体 中 使 用 最 广泛 的 一 个 ， 被 称 为 alpha-beta 算 法 。 

前 向 后 向 算法 除了 本 身 具 有 重要 的 实际 应 用 价值 以 外 ， 还 很 好 地 说 明了 之 前 章节 中 介绍 的 许 
多 概念 。 因 此 我 们 在 本 节 中 会 给 出 前 向 后 向 算法 的 一 个 传统 的 推导， 使 用 概率 的 加 和 规则 和 
乘积 规则 ， 并 且 利 用 由 d- 划 分 从 对 应 的 图 模型 中 得 到 的 条 件 独 立 性 质 。 之 后 在 13.2.3 节 ， 我 们 会 
看 到 前 向 后 向 算法 如 何 作为 8.4.4 节 讨论 的 加 和 -乘积 算法 的 一 个 具体 事例 的 方式 简单 地 得 到 。 
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值得 强调 的 是 ， 潜 在 变量 的 后 验 概率 分 布 的 计算 与 发 射 概率 密度 p(x | z) 的 形式 无 关 ， 事 实 
上 与 观测 变量 是 连续 的 或 者 离散 的 也 无 关 。 我 们 所 需要 的 全 部 东西 是 对 于 所 有 7 的 每 个 zn 值 的 
概率 p(zn | zn)。 并 且 ， 在 本 节 和 下 一 节 中 ， 我 们 会 省 略 对 于 模型 参数 0 日 的 显 式 依赖 关系 ， 
为 模型 参数 始终 是 固定 的 。 

首先 ， 我们 写 出 下 面 的 条 件 独立 性 质 (Jordan, 2007) 。 


p(X | zn) 三 DZ Zn | Zn)p(Tnt1,..., TN | Zn) (13.24) 

Dla Ph | mn) = p(y Rn | 区 站) (13.25) 

DB Tn 1 | nln) = DWI RRL | Zn i) (13.20) 

D(Znl ,ZN | 2zn2zn+H1) 三 DZnl ,DZDN|2zn+l) (13.27) 

D(Zn+2) ,ZN | Znt1, Tnt41) = p(Tn42)..., TN | 2zn+Hl) (13.28) 

p(X | zr lzp) 三 DZ Zn 1 |zn 1)D(Zn | zn)p(znHl DDN|2n) (13.29) 

D(ZN+1 | ,ZN+1) = PLN+I | ZN+1) (13.30) 

P(ZN+1 | ZN, X) = p(zZN+1, ZN) (13.31) 

其 中 入 = {x1,...,ZN}。 这 些 关系 很 容易 使 用 d- 划 分 证 明 。 例 如 在 第 二 个 结果 中 ， 我 们 注意 到 
结 点 21,.…. ,zn-1 中 的 任何 一 个 结 点 到 结 点 zn 的 路 径 都 要 通过 结 点 zn， 它 被 观测 到 。 由 于 所 有 


这 种 路 径 都 是 头 到 尾 的 ， 因 此 这 个 条 件 独立 性 质 一 定 成 立 。 作 为 d- 划 分 的 一 个 练习 ， 读 者 应 该 
花 一 些 时 间 验 证 每 一 条 性 质 。 这 些 关 系 也 可 以 使 用 概率 的 加 和 规则 和 乘积 规则 ， 从 隐 马 尔 科 夫 
模型 的 联合 概率 分 布 中 直接 证 明 ， 但 是 麻烦 得 多 。 

首先 让 我 们 计算 y(znx)。 回 忆 一 下 ， 对 于 离散 的 服从 多 项 式 分 布 的 随机 变量 ,分量 的 期 望 值 
就 是 这 个 分 量 的 值 为 1 的 概率 。 因 此 我 们 感 兴趣 的 是 在 给 定 观 测 数据 z1,.….,zN 的 条 件 下 ， 计 
算 zn 的 后 验 概率 分 布 p(zn | 51,.… ,ZN)。 这 表示 一 个 长 度 为 K 的 向 量 ， 它 的 项 对 应 于 znk 的 期 望 
值 。 使 用 贝 叶 斯 定理 ， 我 们 有 


p(X | zn)p(zn) 
p(X) 


注意 ,分母 p( 匀 ) 隐 式 地 以 HMM 的 参数 9 日 为 条 件 ， 因 此 表示 似 然 函数 。 使 用 条 件 独立 性 质 
(13.24) ， 以 及 概率 的 加 和 乘积 规则 ， 我 们 有 


?7(zn) = Pp(zn | X)= (13.32) 














到 DZ1 ,2n Zn)p(Tntl,..., TN | Zn) 区 Q(zn)B(zn) 13.33 
he p(X) p(X) 
其 中 我 们 定义 了 
Q(zn) 三 p(z1, “1 Tn) Zn) (13.34) 
PB(zn) 三 P(Zn+1 ZN | Zn) (13.35) 


a(zn) 表 示 观 测 到 时 刻 n 及 其 之 前 时 刻 的 所 有 数据 和 z% 的 值 的 联合 概率 ， 而 86(zn) 表 示 在 给 
定 zn 的 条 件 下 ， 从 时 刻 n 十 1 到 N 的 所 有 未 来 数据 的 条 件 概 率 。 与 之 前 一 样 ，a(zn) 和 6(zn) 都 表 
示 K 个 数字 组 成 的 集合 ， 每 个 数字 都 对 应 于 二 值 向 量 z% 的 “1-ofK" 表 示 方 法 的 一 个 可 能 的 配 

我 们 现在 推导 能 够 高 效 计 算 w(zn) 和 8(zn) 的 递归 关系 。 与 之 前 一 样 ， 我 们 使 用 条 件 独立 性 
质 ， 尤 其 是 (13.25) 和 “(13.26) ， 以 及 加 和 规则 和 乘积 规则 ， 得 到 用 a(zn_1) 表 示 的 a(zn)， 如 
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图 13.12: 计算 a 变量 的 前 向 递归 方程 (13.36) 的 说 明 。 在 这 个 晶 格 图 片段 中 ,我们 看 到 a(zn,1) 的 计算 方 
式 是 将 n 一 1 步 的 a(zn-1) 的 元 素 a(zw-1,;) 加 权 求 和 和 和 ， 权 值 为 4;1 ， 对 应 于 p(zn | zn-1) 的 值 ， 然 后 乘 以 概 
率 分 布 p(Zn | Zn1)。 








下 所 述 。 
Q(zn) = D(Z1， Tn, Zn) 
= D(Z1， Tn | Zn)p(zn) 
一 D(Zn Za )D(Z1， .一 | | Zn)p(zn) 
二 D(Zn 2m)D(Z1， 一 1) Zn) 
= p(zn Zn) bp DBiy ey Tn ly Zn Sn) 
= p(Tn Zn) > pal EE J | Zn_1)p(zn_1) 
= p(n | zn) 2 D(Z1 Tn | Zn-1)p(zn | Zn-1)p(zZn-1) 
= p(Tn Zn) D(Z1) Zn 1 Zn_1)p(zn | Zn 1) 
使 用 公式 (13.34) 给 出 的 a(zn) 的 定义 ,我 们 有 
olzn) = | en) >, (en p(n | 1) (13.30) 


Zn—l 


值得 花 时 间 仔 细 研 究 一 下 这 个 递归 的 关系 。 注 意 ， 求 和 式 中 有 天 项 ， 右 侧 必须 对 zn 的 天 个 值 中 
的 每 一 个 进行 计算 ， 因 此 a 递归 的 每 一 步 的 计算 代价 为 O(K?)。 图 13.12 用 品格 图 说 明了 a(zn) 的 
递归 方程 。 

为 了 开始 这 个 递归 过 程 ， 我 们 需要 一 个 初始 条 件 ， 形 式 为 


K 
Q(z1) = p(T1,21) = p(Z1)p(21 | 21) = ] {rsp | Bi )} (13.37) 
k=1 
这 表明 对 于 大 = 1，.…, 玉 ，a(z14) 的 值 为 rkp(z1 | Br)。 从 链 的 第 一 个 结 点 开始 ， 我 们 可 以 沿 着 


链 计算 每 个 潜在 结 点 的 a(zn)。 由 于 递归 的 每 一 步 涉 及 到 与 一 个 K x 五 的 矩阵 相 乘 ， 因 此 计算 整 
个 链 的 这 些 量 的 整体 代价 是 O(K?N)。 
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Plznt+1,2) 






Wp(xn|zn+412) 
PB(zn41,3) 


n n+ ly 


Xn|Zn+1,3) 


图 13.13: 计算 6 变量 的 后 向 递归 方程 (13.38) 的 说 明 。 在 这 个 唱 格 图 片段 中 ,我 们 看 到 B(zw,1) 的 计算 方 
式 是 将 n 十 1 步 的 B(zn+1) 的 元 素 6(zn+41,x) 加 权 求 和 和 ， 权 值 为 4 (对 应 于 p(zn+1 | zn)) 与 发 射 概率 密 
度 p(zn | zn+1,x) 的 对 应 值 的 乘积 。 


类 似 地 我 们 可 以 使 用 条 件 独立 性 质 (13.27) 和 “(13.28) 得 到 B(zn) 的 递归 关系 ， 即 














Bb(zn) = p(Tntl) “TN | Zn) 

a p(Tntl) +) TN, Zntl | Sn) 
之 ntl 

= D(Zn+1， EN | Zn, Znt1)D(Znt1 | Zn) 
之 几 十 1 

二 D(zZn+1 ZN | Zn+t1)p(Znt1 | Zn) 
之 ntl 

二 D(Zn+2， "TN Zn41)p(Tntl | Zn+1)D(Znt1 | 2 
n+l 

使 用 公式 (13.35) 给 出 的 (zn) 的 定义 ， 我们 有 
BP(zn) = BzZnt1)p(Tnti | Znti)p(Znt1 | Zn) (13.38) 
Zntl1 





注意 ， 在 这 种 情况 下 ， 我 们 得 到 了 一 个 后 向 信息 传递 算法 ， 它 根据 8(zn41) 计 算 6(zn)。 在 每 
一 步 中 ， 我 们 通过 发 射 概率 p(xn41 | zn+1) 将 观测 zw41 的 效果 吸收 进来 ， 然 后 对 zn+1 求 和 。 图 
13.13 说 明了 这 个 过 程 。 

与 之 前 一 样 ， 我 们 需要 一 个 递归 的 起 始 条 件 ， 即 2(zw) 的 一 个 值 。 可 以 这 样 获 得 : 令 公 式 
(13.33) 中 的 n = NWN， 然后 使 用 定义 (13.34) 代替 a(zw)， 可 得 
p(X,zN)P(ZN) 

p(X) 

只 要 我 们 对 于 所 有 的 zn 都 有 B(zN) = 1， 这 个 结果 就 是 正确 的 。 

在 M 步 方程 中 ，p( 关 ) 可 以 消去 。 例 如 ， (13.20) 给 出 jx 的 M 步 又 方程 的 形式 为 


Pe Sm oe 
然而 ,， p(X) 表示 似 然 函数 ， 我 们 通常 在 EM 优化 过 程 中 能 够 监视 它 的 值 ， 因 此 能 够 计算 出 这 个 
值 是 很 有 用 的 。 如 果 我 们 将 (13.33) 的 两 侧 对 zs 求 和 ， 使 用 左 侧 是 一 个 归 一 化 分 布 的 事实 ， 我 


们 有 
p(X)= > ,a(n)B(zn) (13.41) 


Zn 


p(zy | X)= (13.39) 
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因此 我 们 可 以 任意 选择 方便 的 %n， 通 过 计算 这 个 求 和 式 计算 似 然 函数 。 例 如 ， 如 果 我 们 只 希望 计 
算 似 然 函 数 ， 那 么 我 们 可 以 从 链 的 起 点 到 终点 运行 a 的 递归 过 程 ， 然 后 使 用 n = N 的 结果 ， 利 
用 B(zN) 是 一 个 元 素 全 部 为 1 的 向 量 这 一 事实 。 在 这 种 情况 下 ，B6 递 归 不 再 需要 ， 从 而 我 们 有 


p(X)= > ,a(zN) (13.42) 


ZN 


让 我 们 花 一 些 时 间 考 察 p( 关 ) 的 这 个 结果 的 意义 。 回 忆 一 下 ， 为 了 计算 似 然 函数 ， 我 们 应 该 
在 Z 的 所 有 可 能 值 上 对 联合 概率 分 布 p( 关 ,2) 求 和 。 每 个 这 样 的 值 表示 每 个 时 间 步 又 下 对 隐 含 状 
态 的 一 个 特定 的 选择 ， 换 句 话 说， 求 和 式 中 的 每 一 项 都 是 晶 格 图 中 的 一 个 路 径 ， 并 且 回忆 一 
下 ， 这 种 路 径 有 指数 多 条 。 通 过 将 似 然 函数 表示 为 (13.42) 的 形式 ， 我 们 将 计算 代价 从 关于 链 
长 度 的 指数 量 级 减 小 到 了 线性 量 级 ， 方 法 是 交换 了 加 和 与 乘积 的 顺序 ， 从 而 在 每 个 时 间 步 
又 2" 中， 我 们 对 通过 每 个 状态 zk 的 所 有 路 径 的 贡献 进行 求 和 ， 得 到 了 中 间 的 量 a(zn)。 

接 下 来 我 们 考虑 &(zn-1, zn) 的 计算 ， 它 对 应 于 (zn-1, zn) 的 K x KK 个 配置 下 的 每 一 个 配置 的 
条 件 概率 p(zn-1, zn | 关 ) 的 值 。 使 用 &(zn-1, zn) 的 定义 ， 应 用 贝 叶 斯 定理 ， 我 们 有 

















€(Zn_1, Zn) = D(zn_1, Zn | XX) 
= p(X | Zn_1, Zn)p(Zn_1, Zn) 











p(X) 
所 DZ1 Pn-1 | Zn_1)p(Tn | zn)Dp(ZnH ,ZN | zn)p(zn | zn-1)D(zn 1) (13.43) 
p(X) 
加 a(zn-1)D(Zn | Zn)p(zn | Zn 1)G(0zn) 
p(X) 


其 中 我 们 已 经 使 用 了 条 件 独 立 性 质 (13.29) 以 及 公式 (13.34) 和 (13.35) 给 出 
的 a(zn) 和 B(zn) 的 定义 。 因 此 我 们 可 以 使 用 a 和 6 的 递归 结果 直接 计算 (zn-1, zn)。 

让 我 们 总 结 一 下 使 用 EM 算法 训练 隐 马 尔 科 夫 模型 所 需 的 步骤 。 首 先 ， 我们 需要 进行 对 参 
数 9 进行 一 个 初始 的 选择 ， 其 中 6 = (x, 4,%)。 参 数 4 和 天 要 么 均匀 地 初始 化 ， 要 么 从 一 个 均 
匀 分 布 中 随机 初始 化 〈 满 足 非 负 限制 与 加 和 限制 ) 。 参 数 $ 的 初始 化 依赖 于 概率 分 布 的 形式 。 
对 于 高 斯 分 布 的 情形 ， 参 数 必 可 以 通过 对 数据 使 用 天 均值 算法 进行 初始 化 ， 丈 :可 以 使 用 对 应 
的 环 均 值 聚 类 的 协 方差 矩阵 初始 化 。 然 后 我 们 运行 前 向 oa 递归 过 程 和 后 向 C 递 归 过 程 ， 使 用 这 些 
结果 计算 Y(zn) 和 5E(zn 1 zn)。 在 这 个 阶段 ， 我 们 也 可 以 计算 似 然 函数 。 这 完成 了 E 步 又 ， 然 后 
我 们 使 用 这 个 结果 ， 使 用 13.2.1 节 的 M 步 骤 方 程 找 到 一 个 修正 参数 0 条 。 然 后 我 们 继续 交替 进 
行 E 步 又 和 M 步 又 ， 直 到 满足 某 些 收敛 准则 ， 例 如 似 然 函数 的 变化 低 于 某 个 闭 值 。 

注意 ,在 这 些 递归 关系 中 ,观测 只 出 现在 条 件 概率 分 布 plzn | zn) 中 。 因 此， 递归 过 程 与 观 
测 变量 的 种 类 和 维度 无 关 ， 也 于 这 个 条 件 概 率 的 形式 无 关 ， 只 要 对 于 zn 的 天 种 可 能 状态 的 每 一 
个 ， 这 个 概率 的 值 可 以 计算 即 可 。 

在 之 前 的 章节 中 ， 我 们 已 经 看 到 ， 当 数据 点 的 数量 相对 于 参数 的 数量 来 说 较 大 的 时 候 ， 最 大 
似 然 方法 最 有 效 。 这 里 ， 我 们 注意 到 ， 使 用 最 大 似 然 方法 ， 隐 马尔 可 夫 模 型 可 以 高 效 地 训练 ， 
只 要 训练 的 序列 足够 长 。 我 们 还 可 以 使 用 多 个 较 短 的 序列 ， 这 需要 对 隐 马 尔 可 夫 模 型 EM 算法 进 
行 一 些 简单 的 修改 。 在 从 左 到 右 模 型 的 情况 下 ， 这 特别 重要 ， 因 为 在 一 个 给 定 的 观测 序列 中 ， 
对 应 于 4 的 非 对 角 元 素 的 给 定 的 状态 转移 最 多 出 现 一 次 。 

我 们 感 兴趣 的 另 一 个 量 是 预测 分 布 ， 其 中 观测 数据 是 = {zl1,………zN}j， 我 们 希望 预 
测 zN+1， 这 对 于 诸如 金融 预测 这 种 实时 的 应 用 来 说 很 重要 。 与 之 前 一 样 ， 我们 使 用 加 和 规则 和 
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Z1 Zn—l Zn 
X pn 


X1 Xn—l1 Xn 


图 13.14: 隐 马 尔 可 夫 模 型 的 因子 图 表示 的 一 个 片段 。 


乘积 桂 策 以 及 条 件 独立 性 质 (13.30) 和 “(13.31) ， 可 得 


p(zN+1| X)= 》 Dp(zNw+lzN+l | X) 
= DP(ZN+L | ZN+1)P(ZN+1 | X) 


= >》 p(zw+l| zw+l) > Pp(zN+1, ZN | X) 


之 十 ZN 


一 D(ZN+1 | ZN+1) >》 p(zw+l | zN)p(zN | X) 


之 INV 十 ZN 


(13.44) 





D(zN， X) 
p(X) 








本 D(ZN+1 | ZN+1) >》 p(zw+l | zN) 
四 p(X) > PLN+1 | ZN+1) 2 plzN+1 | zN)a(zN) 


ZN+1 ZN 








这 可 以 通过 首先 运行 前 向 a 递归 然后 计算 最 后 一 个 式 子 中 关于 zN 和 zN+1 的 求 和 式 的 方式 得 到 。 
第 一 项 关于 zw 的 求 和 式 可 以 被 存储 起 来 ， 一 旦 zw+1 被 观测 到 ， 就 可 以 用 来 运行 递归 的 前 向 步 
又 ， 进 行 到 下 一 步 ， 来 预测 接 下 来 的 值 zw+2。 注 意 ,在 〈13.44) 中 ， 从 z1 和 zn 的 所 有 数据 的 
影响 被 聚集 到 了 a(zw) 的 天 个 值 当中 。 因 此 预测 分 布 可 以 使 用 固定 量 的 存储 空间 向 前 推进 无 穷 
多 次 ， 这 正 是 实时 应 用 所 要 求 的 。 

这 里 ， 我 们 已 经 讨论 了 使 用 最 大 似 然 方法 估计 HMM 的 参数 。 这 个 框架 很 容易 推广 到 正则 化 
的 最 大 似 然 函数 ， 方 法 是 引入 模型 参数 r, A 和 9 上 的 先 验 概率 分 布 ， 然 后 通过 最 大 化 后 验 概率 
的 方式 信 计 参数 的 值 。 这 个 也 可 以 使 用 EM 算法 计算 ， 其 中 E 步 又 与 上 面 的 讨论 相同 ，M 步 骤 在 
最 大 化 之 前 给 似 然 函数 Q(9, 8) 加 上 先 验 概率 分 布 p(9) 的 对 数 ， 可 以 直接 应 用 本 书 讨论 的 多 种 
方法 进行 求解 。 此 外 ， 我 们 可 以 使 用 变 分 方法 ， 得 到 HMM 的 一 个 纯粹 的 贝 叶 斯 方法 ， 其 中 我 们 
对 参数 概率 分 布 进 行 积分 或 求 和 (MacKay, 1997) 。 与 最 大 似 然 方法 相同 ， 这 产生 了 一 个 两 遍 
的 前 向 后 向 递归 的 过 程 来 计算 后 验 概率 分 布 。 








13.2.3 用 于 HMIM 的 加 和 -乘积 算法 


图 13.5 给 出 的 表示 隐 马 尔 可 夫 模 型 的 有 向 图 是 一 棵 树 ， 因 此 我 们 可 以 使 用 加 和 -乘积 算法 来 求 
解 寻 找 局 部 边缘 概率 的 问题 。 毫 不 令 人 司 讶 的 事实 是 ， 这 等 价 于 前 一 市 讨论 的 前 向 -后 向 算法 ， 
因此 加 和 -乘积 算法 给 我 们 提供 了 一 种 简单 的 方式 推导 alpha-beta 递 归公 式 。 

首先 ， 我 们 将 图 13.5 所 示 的 有 向 图 变换 为 因子 图 ， 图 13.14 给 出 了 一 个 代表 性 的 片段 。 这 种 形 
式 的 因子 图 显 式 地 画 出 了 潜在 结 点 和 观测 结 点 。 然 而 ， 对 于 解决 推断 问题 来 说 ， 我 们 总 是 以 变 
量 z1,. ,ZN 为 条 件 ， 因 此 我 们 可 以 通过 将 发 射 概率 整合 到 转移 概率 因子 中 的 方式 来 简化 因子 
图 。 这 就 产生 了 图 13.15 给 出 的 简化 的 因子 图 表示 ， 其 中 因子 为 


h(z1) = p(z1)p(z1 | 1) (13.45) 
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图 13.15: 一 个 简化 形式 的 因子 图 用 来 描述 隐 马 尔 可 夫 模 型 。 


fn(Zn-1, Zn) D(zn | 2mn_1)D(Zn | Zn) (13.46) 

为 了 推导 alpha-beta 算 法 ， 我 们 将 最 后 的 隐 含 变量 zw 看 成 根 结 点 ， 首 先 从 叶 结 点 /向 根 结 点 

传递 信息 。 根 据 公 式 (8.66) 和 (8.69) 给 出 的 信息 传播 的 一 般 结果 ， 我 们 看 到 在 隐 马 尔 可 夫 模 
型 中 传递 的 信息 的 形式 为 





Haasfa (Zn-1) = Hpi Sani (Zn-1) (13.47) 

Hfn—zn (zn) 一 万 (zn -127r)Nz 1 人》 户 (2 (13.48) 

这 些 方程 表示 沿 着 链 的 信息 前 向 传递 ， 等 价 于 前 一 节 推导 出 的 alpha 递 归 ， 说 明 如 下 。 注 意 ， 由 
于 变量 结 点 z 只 有 两 个 相 邻 结 点 ， 因 此 它们 不 进行 计算 。 








我 们 可 以 使 用 公式 (13.47) 从 公式 (13.48) 中 消去 /4z,,_1 f(zn-1)， 得 到 f 一 z 的 信息 的 递 
归 方 程 ， 形 式 为 


1 (13.49) 
如 果 我 们 回忆 一 下 定义 (13.46) ， 并 且 如 果 我 们 定义 
Q(zZn) = Hf, zn (Zn) (13.50) 


那么 我 们 就 得 到 了 公式 (13.36) 给 出 的 alpha 递 归 方 程 。 我 们 还 需要 验证 a(zn) 本 身 等 价 于 之 前 
的 定义 。 可 以 这 样 做 : 使 用 初始 条 件 (8.71) ,然后 注意 到 Q(z1) 为 h(z1) = p(z1)p(Z1 | z1)， 这 
与 公式 (13.37) 完全 相同 。 由 于 初始 的 a 是 相同 的 ， 并且 它 们 使 用 同样 的 方程 进行 迭代 地 计 
算 ， 因此 所 有 后 续 的 a 一 定 相 同 。 

接 下 来 我 们 研究 从 根 结 点 传递 回 到 叶 结 点 的 信息 ， 形 式 为 





Mfr zn (Zn) > > fnri(Zn; Znt) Hf a zn (zn+1) (13.51) 
下 
其 中 ， 与 之 前 一 样 ， 我 们 消去 了 形 如 z 一 f 的 信息 ， 因 为 变量 结 点 不 参与 计算 。 使 用 定义 
(13.40 ) 消去 fr41(zn, zn+1) 》 然后 定义 
B(zn) = Hpi zn (Zn) (13.52) 


我 们 就 得 到 了 公式 (13.38) 定义 的 beta 递 归 方程 。 我 们 同样 可 以 验证 beta 变 量 本 身 是 等 价 的 。 我 
们 注意 到 公式 (8.70) 表明 根 变 量 结 点 发 送 的 初始 结 点 为 Wzv jw(zN) = 1， 这 与 13.2.2 节 给 出 了 
对 B(zN) 的 初始 化 完全 相同 。 

加 和 -乘积 算法 也 指定 了 如 何 计算 边缘 概率 ,一旦 所 有 的 信息 都 已 经 被 计 算出 来 。 特 别 地 ， 
公式 (8.63) 给 出 的 结果 表明 结 点 zn 处 的 局 部 边缘 概率 是 输入 信息 的 乘积 。 由 于 我 们 以 变 
量 X = {21,.…, ZN} 为 条 件 ， 因 此 我 们 计算 的 是 联合 概率 分 布 


p(zn; 头 ) = Hfnozn (Zn) Hpi zn (zn) = Qa(zn)B (zn) (13.53) 
将 两 侧 同 时 除 以 p( 笠 )， 我 们 有 


7(zn) = DR (13.54) 


这 与 公式 (13.33) 相符 。 公 式 (13.43) 给 出 的 结果 可 以 类 似 地 从 公式 (8.72) 中 推导 出 。 
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13.2.4 ”缩放 因子 


在 我 们 能 够 在 实际 应 用 中 使 用 前 向 后 向 算法 之 前 ， 有 一 件 事情 必须 强调 。 根 
据 递归 关系 (13.36) ,我 们 注意 到 在 每 一 步 中 ， 新 的 值 a(zn) 为 前 一 个 值 a(zn-1) 乘 
以 p(zn | zn-1) 和 p(zn | zn)。 由 于 这 些 概 率 通 常 远 远 小 于 1， 因 此 随 着 我 们 沿 着 链 向 前 推 
进 ，a(zn) 很 快 就 会 指数 地 趋 近 于 零 。 对 于 中 等 的 链 长 度 (例如 100 左 右 ) ，a(zn) 的 计算 很 快 就 
会 超出 计算 机 的 计算 范围 ， 即 使 使 用 双 精 度 浮 点 数 也 是 如 此 。 

和 布 数据 的 情形 ， 我 们 使 用 取 对 数 的 方式 ， 隐 式 地 避 开 了 计算 似 然 函数 的 这 
个 问题 。 不 幸 的 是 ， 这 种 方法 在 这 里 没有 作用 ， 因 为 我 们 对 很 小 的 数字 的 乘积 进行 求 和 

(事实 上 我 们 隐 式 地 对 图 13.7 的 唱 格 图 中 的 所 有 可 和 EE 的 路 径 求 和 ) 。 因 此 我 们 使 用 重新 缩放 
的 a(zn) 和 B(zn) 来 计算 ， 它 们 的 值 保 持 与 单位 长 度 在 同一 个 量 级 上 。 正 如 我 们 将 看 到 的 那样 ， 
当 我 们 在 EM 算法 中 使 用 这 些 缩放 的 量 时 ， 对 应 的 缩放 因子 会 消去 。 

在 公式 (13.34) 中 ， 我 们 定义 了 al(zn) = p(T1,... er 表示 所 有 截止 到 xz; 的 观测 以 及 

潜在 变量 zn* 的 联合 概率 分 布 。 现 在 我 们 定义 a 的 一 个 归 一 化 的 版 本 ， 形 式 为 


Q(zn) 


一 -一 一 13.55 
D(Z1) Zn) 4 ) 


Ql(Zh) (2 | We 


我 们 预计 这 个 量 在 数值 计算 上 可 以 表现 良好 ， 因 为 对 任意 n 值 ， 它 都 是 K 个 变量 上 的 一 个 概率 分 
布 。 为 了 将 缩放 的 alpha 变 量 与 原始 的 alpha 变 量 关 联 起 来 ， 我 们 引入 缩放 因子 ， 它 由 观测 变量 上 
的 条 件 概率 分 布 定义 ， 即 


Gn- = pon | 区 2 二 埃 (13.50) 
根据 乘积 规则 ， 我 们 有 
ne = | (13.57) 
m=1 
因此 
Q(zn) = plzn | Bl Pn)p(P1,...,T 9 -|( 羡 ojac Zn (13.58) 
然后 我 们 可 以 将 a 的 递归 方程 (13.36) 转化 为 的 递归 方程 ， 形 式 为 
wi) = p(k | Yd p(w 区 (13.59) 


注意 ， 在 用 于 计算 &(zn) 的 前 向 信息 传播 阶段 的 每 一 步 ， 我 们 必须 计算 和 存储 c"， 这 很 容易 做 
到 ， 因 为 它 是 将 公式 (13.59) 的 右 侧 归 一 化 得 到 a(zn) 的 归 一 化 系数 。 
类 伏地 ， 我 们 可 以 使 用 下 式 


N 
Be ( II | B(zn) (13.60) 
m=n 二 1 


定义 重新 缩放 的 变量 8(z,)。 它 的 值 再 次 保持 在 机 器 的 精度 范围 内 ， 因 为 根据 公式 
(13.35) ，B(zn) 仅 仅 是 两 个 条 件 概 率 分 布 的 比值 





B(zn) 二 DP(Zn+H1 ,DCN | Zn) (13.61) 
p(Tnt1,... TN | XT1,... , Tn) 
这 样 ， 根 据 6 的 递归 结果 (13.38) 可 以 得 到 下 面 的 对 重新 标准 的 变量 的 递归 方程 
cn+16( Zn) 3 有 n+ 1)p p(wn +1 | n+ 1)p(zn H+1 | Zn) (13.62) 





之 n+l 


在 应 用 这 个 递归 关系 时 ， 我 们 使 用 之 前 在 a 阶段 计算 的 缩放 因子 cn。 
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口 
口 


n—2 n—1 n n+l 
图 13.16: HMM 晶 格 图 片段 ， 画 出 了 两 条 可 能 的 路 径 。 维 特 比 算法 从 指数 多 种 可 能 的 路 径 中 高 效 地 确定 概 
率 最 高 的 路 径 。 对 于 任意 给 定 的 路 径 ， 对 应 的 概率 为 转移 矩阵 的 元 素 A;: (对 应 于 每 个 路 径 片段 的 概 
率 p(zn+1 | zn)) 和 与 路 径 上 的 每 个 结 点 相关 联 的 发 射 概率 密度 p(xn | 的 乘积 。 





根据 公式 (13.57) ， 我 们 看 到 似 然 函数 可 以 使 用 下 式 求 出 
N 
r(X)= [ee (13.63) 
n=1 


类 似 地 ,使 用 (13.33) 和 (13.43) 以 及 (13.63) ,我 们 看 到 所 求 的 边缘 概率 为 


yzn) = (zn)B(zn) (13.64) 

En ) = 0 O(n 1 p(n | 0)p (on | wad)P (en) (13.65) 

最 后 ， 我 们 注意 到 前 向 后 向 算法 有 另 一 种 公式 (Jordan, 2007) ， 其 中 后 向 传递 由 基 

于 ?7(zn) = Q(zn)B(zn) 的 递归 定义 ， 而 不 是 使 用 8(zn)。 这 个 a 一 ?7 递归 要 求 前 向 传递 过 程 首 先 

完成 ， 从 而 在 后 向 传递 过 程 中 能 得 到 所 有 的 G(zn)， 而 a - 8 算法 的 前 向 和 波 uxiangguocheng 可 以 

独立 地 进行 。 虽 然 这 两 个 算法 的 计算 代价 是 可 比 的， 但 是 在 隐 马 尔 可 夫 模型 的 情形 下 ，a - 5 版 
本 是 最 经 常 遇 到 的 ， 而 对 于 线性 动态 系统 ， 与 a 一 ?形式 类 似 的 递归 规程 更 常见 。 


13.2.5 ”维特 比 算法 


在 隐 马 尔 可 夫 模 型 的 许多 应 用 中 ， 洪 在 变量 有 许多 有 意义 的 直观 意义 ， 因 此 对 于 给 定 的 观测 
序列 ， 我 们 常常 感 兴趣 的 是 寻找 概率 最 高 的 隐 含 状态 序列 。 例 如 ， 在 语音 识别 中 ， 对 于 一 个 给 
定 的 声音 观测 序列 ， 我 们 可 能 希望 找到 概率 最 大 的 音素 序列 。 由 于 隐 马 尔 可 夫 模 型 的 图 是 一 棵 
有 向 树 ， 因 此 这 个 问题 可 以 使 用 最 大 家 和 算法 精确 地 求解 。 回 忆 一 下 ， 根 据 8.4.5 节 ， 寻 找 洪 在 
变量 的 概率 最 高 的 序列 与 寻找 分 别 概率 最 高 的 状态 的 集合 是 不 相同 的 。 后 一 个 问题 可 以 这 样 解 
决 : 首先 运行 前 向 后 向 算法 〈 加 和 -乘积 算法 ) 找到 潜在 变量 边缘 概率 7(zn)， 然 后 单独 最 大 化 
每 个 概率 (Duda et al., 2001) 。 然 而 ， 通 常 这 样 的 状态 集合 不 会 对 应 于 最 可 能 的 状态 序列 。 事 
实 上 ， 如 果 对 于 两 个 连续 的 状态 ， 它 们 单独 的 概率 都 是 最 高 的 ， 但 是 连接 它们 的 转移 矩阵 的 元 
素 为 零 ， 那 么 这 个 状态 集合 表示 一 个 具有 和 零 概率 的 序列 。 

在 实际 应 用 中 ， 我 们 通常 感 兴趣 的 是 寻找 最 可 能 的 状态 序列 (sequence) ， 这 可 以 使 用 最 大 
加 和 算法 高 效 地 求 出 ， 这 个 算法 在 隐 马 尔 科 夫 模型 中 被 称 为 维特 比 算法 (Viterbi algorithm ) 
(Viterbi, 1967) 。 注 意 ， 最 大 加 和 算法 作用 于 对 数 概率 ， 因 此 无 需 使 用 前 向 后 向 算法 中 的 重新 
缩放 的 变量 。 图 13.16 给 出 了 隐 马 尔 科 夫 模型 的 晶 格 图 的 一 个 片段 。 正 如 我 们 已 经 注意 到 的 ， 通 
过 经 过 的 可 能 的 路 径 的 数量 随 着 链 的 长 度 指数 增长 。 维 特 比 算法 高 效 地 搜索 这 个 路 径 空间 ， 找 
到 概率 最 高 的 路 径 ， 计 算 代 价 仅仅 随 着 链 的 长 度 线 性 增长 。 

与 加 和 -乘积 算法 相同 ， 我 们 首先 将 隐 马 尔 可 夫 模 型 表示 为 因子 图 ， 如 图 13.15 所 示 。 与 之 前 
一 样 ， 我 们 将 变量 结 点 zw 当成 根 结 点 ， 从 根 结 点 开始 向 叶 结 点 传递 信息 。 使 用 公式 (8.93) 和 
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(8.94) 的 结果 ， 我 们 看 到 在 最 大 加 和 算法 中 传递 的 信息 为 
Hz 六 (2m) 二 内 太一 znr (zn) (13.60) 
Hfnriznt1 (Zn+1) 3 a li fnt+1 (zn, Zn+41) 十 Wzn frr (zn)} (13.67) 


如 果 消 去 两 个 方程 间 的 Upz, jw (zn)， 然 后 使 用 公式 (13.46) ,我 们 得 到 了 J 一 z 的 信息 的 递 
归 方 程 ， 形 式 为 


wzn41) = lnp(znr1 | Zn+1) + max{lnp(zn+l | Zn) + ww (zn)} (13.68) 


其 中 我 们 引入 了 记号 w(zn) 夺 Mp, zn (Zn)。 
根据 公式 (8.95) 和 (8.96) ， 这 些 信 息 使 用 下 面 的 公式 初始 化 


w(z1) = lnp(z1)++ lnp(z1 | z1) (13.69) 
其 中 我 们 已 经 使 用 了 公式 (13.45) 。 注 意 , 为 了 保持 记号 简洁 ， 我 们 略 去 了 对 模型 参数 9 的 依 
赖 关 系 ， 它 在 我 们 寻找 概率 最 高 的 序列 的 过 程 中 保持 固定 。 


维特 比 算法 也 可 以 直接 从 联合 概率 分 布 的 定义 (13.6) 中 直接 推导 ， 方 法 是 取 对 数 ， 然 后 交 
换 求 最 大 值 和 求 和 的 顺序 。 很 容易 看 到 w(zn) 具 有 下 面 的 概率 意义 





wzn) = max lnp(zl an 二 an (13.70) 
之 下 


一 旦 我 们 完成 了 在 zw 上 的 最 大 化 过 程 ， 那 么 我 们 就 得 到 了 对 应 于 概率 最 大 的 路 径 的 联合 概 
率 分 布 p(X,QG)。 我 们 还 希望 找到 对 应 于 这 条 路 径 的 潜在 变量 值 的 序列 。 为 了 完成 这 一 点 ， 我 
们 简单 地 使 用 8.4.5 节 讨论 的 反 向 跟踪 方法 。 具 体 来 说 ， 我 们 注意 到 在 zw 上 的 最 大 化 过 程 必须 
在 zn+1 的 KK 个 可 能 值 的 每 一 个 值 上 进行 。 假 设 对 于 zn+1 的 K 个 值 中 的 每 一 个 值 ， 我 们 都 记录 下 
与 最 大 值 相对 应 的 zn 的 值 。 让 我 们 将 这 个 通 数 记 作 y(kn)， 其 中 € {1,.…., 玉 }。 一旦 我 们 将 信 
上 息 传 递 到 了 链 的 末端 ， 找 到 了 概率 最 大 的 状态 zw ， 那 么 我 们 可 以 使 用 这 个 函数 来 沿 着 链 进行 反 
向 跟踪 ， 方 法 是 递归 地 应 用 下 式 





br (13.71) 


直观 上 讲 ， 我 们 可 以 按照 下 面 的 方式 理解 维特 比 算 法 。 朴 素 地 说 ， 我 们 可 以 显 式 地 考虑 通过 
晶 格 的 指数 多 条 路 径 ， 计 算 每 条 路 径 的 概率 ， 然 后 选择 具有 最 高 概率 的 路 径 。 然 而 ， 我 们 注意 
到 ， 我 们 可 以 对 计算 量 进行 极 大 的 简化 。 假 设 对 于 每 条 路 径 ， 我 们 在 沿 着 通过 晶 格 的 每 条 路 径 
前 向 计算 时 ， 通 过 将 转移 概率 与 发 射 概率 的 乘积 进行 求 和 的 方式 求 出 这 个 概率 。 考 虑 一 个 特定 
的 时 刻 ” 以 及 在 那个 时 刻 的 一 个 特定 的 状态 &。 会 存在 许多 条 路 径 收敛 到 晶 格 图 中 的 对 应 的 结 
点 。 然 而 ,我们 只 需要 保留 当前 具有 最 高 概率 的 特定 的 路 径 即 可 。 由 于 在 时 刻 n 有 个 状态 ， 因 
此 我 们 需要 跟踪 KK 个 这 样 的 路 径 。 在 时 刻 n 十 1， 会 存在 KK 个 可 能 的 路 径 要 考虑 ， 由 在 K 个 当前 
状态 中 的 每 个 状态 引出 的 K 个 可 能 的 路 径 组 成 ,但 是 在 n + 1 时 刻 ， 我 们 还 是 只 需 保留 对 应 于 最 
优 路 径 的 天 个 状态 。 当 我 们 到 达 最 后 的 时 刻 六 时 ， 我 们 会 发 现 哪个 状态 对 应 于 整体 上 概率 最 
高 的 路 径 。 由 于 存在 一 个 唯一 的 一 条 路 径 进 入 这 个 状态 ， 因 此 我 们 可 以 反 向 跟踪 这 条 路 径 
到 N 一 1 步 ， 看 到 那 一 时 刻 出 现 了 哪个 状态 ， 以 此 类 推 , 沿 着 晶 格 跟踪 到 状态 n = 1。 








13.2.6” 隐 马尔 科 夫 模 型 的 扩展 


基本 的 隐 马 尔 科 夫 模型 以 及 基于 最 大 似 然 方法 的 标准 训练 算法 已 经 通过 很 多 种 方式 进行 了 扩 
展 ， 来 满足 特定 应 用 的 需求 。 这 里 ， 我 们 讨论 几 个 更 重要 的 例子 。 

我 们 从 图 13.11 的 手写 数字 的 例子 中 可 以 看 到 ， 隐 马尔 可 夫 模 型 对 于 数据 来 说 ， 是 一 个 相当 差 
的 生成 式 模型 ， 因 为 许多 人 工 生成 的 数字 对 于 训练 集 来 说 看 起 来 相当 不 具有 代表 性 。 如 果 目 标 
是 序列 分 类 ， 那 么 在 确定 隐 马 尔 科 夫 模 型 的 参数 时 ， 使 用 判别 式 方法 而 不 是 最 大 似 然 方法 会 产 
生 很 多 好 人 处。 假设 我 们 有 一 个 训练 集 ， 由 RR 个 观测 序列 - 组 成 ， 其 中 7 = 1,.…., 及， 每 个 序列 根 
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图 13.17: 自 回归 隐 马 尔 可 夫 模 型 的 一 部 分 ， 其 中 ， 观 测 zn 的 概率 分 布依 赖 于 之 前 的 观测 的 子 集 以 及 隐 状 
态 zn。 在 这 个 例子 中 ，zn 的 分 布依 赖 于 两 个 之 前 的 观测 zw-1 和 zn-?。 


据 它 的 类 别 m 进 行 标 记 ， 其 中 m = 1,.…., MMM。 对 于 每 个 类 别 ， 我 们 有 一 个 独立 的 隐 马 尔 可 夫 模 
型 ， 它 的 参数 为 9， 我 们 将 确定 参数 值 的 问题 看 成 标准 的 分 类 问题 ， 其 中 我 们 想 最 优化 交叉 信 


RR 
> Inp(m | XX;) (13.72) 
7 二 1 


使 用 贝 叶 斯 定理 ， 这 个 可 以 使 用 与 隐 马 尔 可 夫 模 型 相关 联 的 序列 概率 表示 ， 即 


R 
p(X | O07)p(mr) 
3 | 5 p(X, | 9)p() | 


其 中 p(m) 是 类 别 m 的 先 验 概率 。 对 这 个 代价 函数 的 最 优化 比 最 大 化 似 然 函 数 更 复杂 〈Kapadia， 
1998) ， 特 别 地 ， 为 了 计算 公式 (13.73) 的 坟墓 ， 这 种 方法 需要 每 个 训练 序列 在 每 个 模型 下 进 
行 计 算 。 隐 马尔 科 夫 模型 加 上 判别 式 的 训练 方法 在 语音 识别 中 广泛 应 用 (Kapadia, 1998) 。 

隐 马 尔 科 夫 模型 的 一 个 很 大 的 缺点 是 ， 系 统 保持 在 一 个 给 定 的 状态 下 ， 模 型 对 于 时 间 分 布 的 
表示 方法 。 为 了 说 明 这 个 问题 ， 我 们 注意 到 ， 从 一 个 给 定 的 隐 马 尔 科 夫 模型 中 采样 到 一 个 序 
列 ， 这 个 序列 在 状态 & 恰 好 花费 了 7 个 步 又， 然后 转移 到 了 一 个 不 同 的 状态 ， 这 种 情形 出 现 的 概 
率 为 





六 会 


p(T) = (Axx)’ (1 — Axk) & exp(T ln Axx) (13.74) 


因此 它 是 T 的 一 个 指数 衰减 的 函数 。 对 于 许多 应 用 ， 这 对 于 状态 持续 时 间 来 说 是 一 个 相当 不 现 
实 的 模型 。 问 题 可 以 这 样 解决 : 直接 对 状态 持续 时 间 建 模 ， 其 中 对 角 系 数 Ak4 全 部 被 设置 为 
零 ， 每 个 状态 k 显 式 地 与 可 能 的 持续 时 间 的 概率 分 布 p(T | 相关 联 。 从 生成 式 的 观点 来 看 ， 当 
系统 进入 状态 £ 时 ， 表 示 系 统 保持 在 状态 的 时 间 数 T 会 从 p(T | 有) 中 抽取 。 模 型 之 后 发 射出 观测 
变量 zt 的 T 个 值 ， 这 通常 被 假定 为 独立 的 ， 从 而 对 应 的 发 射 概率 分 布 为 可 1p(zt | 向 。 这 种 方 
法 需要 对 EM 最 优化 步骤 进行 简单 的 修改 (Rabiner, 1989) 。 

标准 HMM 的 另 一 个 局 限 性 是 它 在 描述 观测 变量 的 长 距离 相关 性 〈 被 许多 时 间 步 骤 分 开 的 变 
量 的 相关 性 ) 时 ， 效 果 很 差 ， 因 为 这 些 相关 性 必须 被 隐 含 状态 的 一 阶 马 尔 科 夫 链 所 调解 。 长 距 
离 的 效果 原则 上 可 以 通过 在 图 13.5 所 示 的 图 模型 中 添加 额外 链接 的 方式 被 包含 到 模型 中 。 一 种 
解决 的 办 法 是 将 HMM 进 行 推广 ， 得 到 了 自 回 归隐 马尔 科 夫 模型 (autoregressive hidden Markov 
model) (〈(Ephraim et al., 1989) 。 图 13.17 给 出 了 这 个 模型 的 一 个 例子 。 对 于 离散 的 观测 来 说 ， 
这 对 应 于 将 发 射 概率 分 布 的 条 件 概率 表 进 行 扩展 。 在 高 斯 发 射 概率 密度 的 情形 下 ， 我 们 可 以 使 
用 线性 高 斯 的 框架 ， 其 中 ， 给 定 前 一 个 观测 的 值 以 及 z 的 值 的 条 件 下 ，z 的 条 件 概率 分 布 是 一 
个 高 斯 分 布 ， 均 值 为 条 件 变 量 值 的 一 个 线性 组 合 。 很 明显 ， 图 中 附加 的 链接 必须 被 限制 ， 
避免 自由 参数 的 数量 过 多 。 在 图 13.17 给 出 的 例子 中 ， 每 个 观测 依赖 于 前 两 个 观测 变量 以 及 
隐 含 状态 。 虽 然 这 个 图 看 起 来 很 得， 但 是 我 们 再 次 采用 d- 划 分 ， 可 以 看 到 ， 事 实 上 ， 它 有 一 
个 简单 的 概率 结构 。 特 别 地 ， 如 果 我 们 假设 以 zn 为 条 件 ， 那 么 我 们 看 到 ， 与 标准 的 HMM 相 
同 ，zn 1 和 zn+i 的 值 是 独立 的 ， 对 应 于 条 件 独 立 性 质 (13.5) 。 这 很 容易 验证 。 我 们 注意 到 ， 
每 个 从 结 点 zn_1 到 结 点 zn41 的 路 径 都 要 穿 过 至 少 一 个 关于 那 条 路 径 头 到 尾 连 接 的 观测 结 点 。 从 
而 ， 在 EM 算法 的 E 步 又 中 ， 我 们 可 以 再 次 使 用 前 向 后 向 递归 ， 确 定 潜在 变量 的 后 验 概率 分 布 ， 
计算 时 间 与 链 的 长 度 是 线性 关系 。 类 似 地 ，M 步 又 值 涉及 到 对 标准 的 M 步 又 方程 的 一 个 微小 的 
修改 。 在 高 斯 发 射 密度 的 情形 下 ， 这 涉及 到 使 用 第 3 章 讨论 的 标准 线性 回归 方程 估计 参数 。 
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Um 一 1 Un Um 十 1 





图 13.18: 输入 输出 隐 马 尔 可 夫 模 型 的 一 个 例子 。 在 这 种 情况 下 ， 发 射 概率 和 转移 概率 都 依赖 于 观测 序 


列 w1， 家 入 志 ,UN 的 值 。 


2 2 
和 zz 人 2) 有 





图 13.19: 由 两 个 潜在 变量 马尔 科 夫 链 组 成 的 因子 隐 马 尔 可 夫 模 型 。 对 于 连续 的 观测 变量 z， 发 射 模型 的 一 
种 可 能 的 选择 是 线性 高 斯 概率 密度 ， 其 中 高 斯 分 布 的 均值 是 对 应 的 潜在 变量 状态 的 线性 组 合 。 


我 们 已 经 看 到 ， 当 我 们 使 用 图 模型 时 ， 自 回归 HMM 可 以 看 成 标准 HMM 的 一 个 很 自然 的 扩 
展 。 事 实 上 ， 概率 图 模型 的 观点 会 产生 基于 HMM 的 相当 多 种 不 同 的 图 结构 。 男 一 个 例子 是 输入 
输出 隐 马 尔 科 夫 模型 (input-output hidden Markov model) (Bengio and Frasconi, 1995) ， 其 中 
我 们 有 一 个 观测 变量 的 序列 wi,.….. ,un， 以 及 输出 变量 的 序列 x1,...,zN， 观 测 变量 的 值 要 么 影 
响 潜在 变量 的 分 布 ， 要么 影响 输出 变量 的 分 布 ， 或 者 对 两 者 都 产生 影响 。 图 13.18 给 出 了 一 个 
例子 。 这 将 HMM 的 框架 推广 到 了 顺序 数据 的 有 监督 学 习 领 域 。 与 之 前 一 样 ， 通 过 使 用 d- 划 
分 ,很 容易 证 明 潜 在 变量 链 的 马尔 科 夫 性 质 (13.5) 仍然 成 立 。 为 了 证 明 这 一 点 ， 我 们 注意 
到 从 结 点 zn-1 到 结 点 zn+1 只 有 一 条 路 径 ， 这 条 路 径 关 于 观测 结 点 zn 是 头 到 尾 的 。 这 个 条 件 独 
立 性 质 又 一 次 使 得 高 效 的 学 习 算 法 的 公式 能 够 成 立 。 特 别 地 ， 我 们 可 以 通过 最 大 化 似 然 函 
数 L(9) = p( 久 | U,0) 的 方式 确定 模型 参数 09， 其 中 U 是 一 个 矩阵 ， 它 的 行 等 于 uk。 由 于 条 件 独 
立 性 质 (13.5) ， 可 以 使 用 EM 算法 对 似 然 函数 进行 最 大 化 ， 其 中 ，E 步 又 涉及 到 前 问 和 后 向 的 
递归 。 

HMM 的 另 一 个 值得 一 提 的 变 体 是 因子 隐 马 尔 可 夫 模 型 (factorial hidden Markov model) 
(Ghahramani and Jordan, 1997) ， 其 中 存在 多 个 独立 的 潜在 变量 马尔 科 夫 链 ， 并 且 在 一 个 给 定 
的 时 刻 ， 观 测 变量 的 概率 分 布 以 相同 时 间 的 所 有 对 应 的 潜在 变量 的 状态 为 条 件 。 图 13.19 展 示 了 
对 应 的 图 模型 。 为 了 说 明 研究 因子 HMM 的 动机 ， 我 们 注意 到 ， 在 一 个 给 定 的 时 刻 ， 为 了 表示 例 
如 10 比 特 的 信息 ， 标 准 的 HMM 需 要 KK = 210 = 1024 个 潜在 状态 ， 而 因子 HMM 可 以 使 用 10 个 二 
值 潜 在 链 。 然 而 ， 因 子 HMM 的 主要 缺点 是 训练 时 的 额 外 的 复杂 度 。 因 子 HMM 的 M 步 又 很 容 
易 。 然 而 ，z 变 量 的 观测 引入 了 潜在 链 之 间 的 依赖 关系 ， 从 而 给 E 步 骤 带 来 了 困难 ， 说 明 如 下 。 
我 们 注意 到 在 图 13.19 中 ， 变 量 z 吕 和 z 名 由 一 个 在 结 点 zn 处 的 头 到 头 的 路 径 链接 ， 因 此 不 是 d- 划 
分 的 。 这 个 模型 的 精确 的 E 步 骤 无 法 对 应 于 在 M 个 马尔 科 夫 链 上 独立 地 运行 前 向 和 后 向 递归 。 
我 们 注意 到 关键 的 条 件 独 立 性 质 (13.5) 对 于 因子 HMM 模 型 中 的 各 个 马尔 科 夫 链 不 成 立 ， 图 
13.20 给 出 了 使 用 d- 划 分 的 结果 ， 从 而 证 实 了 确实 无 法 独立 地 运行 前 向 和 后 向 递归 。 现 在 假设 
有 M 个 隐 舍 结 点 链 ， 并 且 为 了 简化 起 见 ， 我 们 假设 所 有 的 潜在 变量 的 状态 数量 都 为 K。 这 样 ， 
在 一 个 给 定 的 时 刻 ， 一 种 方法 会 关注 潜在 变量 的 KY 种 组 合 ， 因 此 我 们 可 以 将 模型 转化 为 一 个 
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& 了 人 2) z@ 





图 13.20: 绿色 标记 的 路 径 在 观测 结 点 zw_1 和 zn+1 处 是 头 到 头 的， 在 非 观测 结 点 zt ,z 人 名 和 zf2 ;处 是 头 
到 尾 的 。 因 此 路 径 没有 被 阻隔 ， 从 而 条 件 独立 性 质 (13.5) 对 于 因子 HMM 模 型 的 各 个 潜在 链 不 成 立 。 结 
果 ， 这 个 模型 没有 高 效 的 精确 E 步 又 。 


等 价 的 标准 HMM， 它 由 一 个 单独 的 潜在 变量 链 ， 每 个 潜在 变量 有 KY 个 潜在 状态 。 然 后 我 们 可 
以 在 E 步 又 中 运行 标准 的 前 向 后 向 递归 方法 。 计 算 复 杂 度 为 O(NK?2M)， 它 与 潜在 链 的 数量 M 是 
指数 的 关系 ， 因 此 除了 对 于 很 小 的 M 值 以 外 均 无 法 计算 。 一 个 解决 方法 是 使 用 采样 方法 (第 11 
章 讨论 ) 。 作 为 另 一 个 优雅 的 确定 性 的 解决 方法 ，Ghahramani and Jordan (1997) 研究 了 使 用 变 
分 推断 方法 来 得 到 近似 推断 的 一 个 可 以 计算 的 算法 。 可 以 这 样 做 : 使 用 一 个 简单 的 变 分 后 验 概 
率 分 布 ， 它 关于 潜在 变量 可 以 完全 分 解 ， 或 者 使 用 一 个 更 强大 的 方法 ， 其 中 变 分 分 布 由 独立 的 
马尔 科 夫 链 描述 ， 马 尔 科 夫 链 对 应 于 原始 模型 中 的 潜在 变量 链 。 在 后 一 种 情形 中 ， 变 分 推断 算 
法 涉及 到 沿 着 每 条 链 独 立地 运行 前 向 和 后 向 递归 ， 这 在 计算 上 很 有 效率 ， 同 时 也 能 够 描述 同一 
个 链 上 的 变量 之 间 的 相关 性 。 

很 明显 ,根据 特定 的 应 用 需要 ， 可 以 构建 许多 可 能 的 概率 模型 。 图 模型 提供 了 一 个 一 般 的 方 
法 来 提出 、 描 述 、 分 析 这 些 结果 ， 变 分 方法 提供 了 一 个 强大 的 框架 ， 对 无 法 得 到 精确 解 的 模型 
进行 推断 。 


13.3 ”线性 动态 系统 


为 了 说 明 线性 动态 系统 的 概念 ， 让 我 们 考虑 下 面 这 个 简单 的 例子 ， 它 经 常 在 实际 问题 中 出 
现 。 假 设 我 们 希望 使 用 一 个 有 噪声 的 传感器 测量 一 个 未 知 量 z 的 值 ， 传 感 需 返回 一 个 观测 值 z， 
表示 z 的 值 加 上 一 个 零 均 值 的 高 斯 噪声 。 给 定 一 个 单 次 的 测量 ， 我 们 关于 z 的 最 好 的 猜测 是 假 
设 z = z。 然 而 ， 我 们 可 以 通过 取 多 次 测量 然后 求 平 均 的 方法 提高 我 们 对 z 的 估计 效果 ， 因 为 随 
机 噪声 项 倾向 于 彼此 抵消 。 现 在 ， 让 我 们 将 情况 变 得 更 复杂 。 假 设 我 们 希望 测量 一 个 随 着 时 间 
变化 的 量 z。 我 们 可 以 对 进行 常规 的 测量 zx， 从 而 我 们 得 到 了 z1,.…. ,znN， 我 们 希望 找到 对 应 
的 z1,.….,zN。 如 果 我 们 简单 地 对 测量 求 平均 ， 那 么 由 于 随机 噪声 产生 的 误差 会 被 消去 ， 但 是 不 
幸 的 是 我 们 会 仅仅 得 到 一 个 单一 的 平均 估计 ， 对 z 的 变化 进行 了 平均 ， 从 而 引入 了 一 种 新 的 误 
差 





直观 上 讲 ， 我们 可 以 用 下 面 的 方式 稍微 好 一 些 地 完成 这 个 任务 。 为 了 估计 zn 的 值 ， 我 们 只 
取 最 近 的 几 次 测量 ,例如 znN-_L,.… ,ZN， 然 后 求 平均 。 如 果 z 的 变化 很 慢 ， 并且 传 感 器 的 随机 
噪声 的 水 平 很 高 ， 那 么 选择 一 个 相对 长 的 窗口 求 平均 是 有 意义 的 。 相 反 ， 如 果 信 和 号 变化 很 快 ， 
并 且 噪 声 水 平 相对 较 小 ， 那 么 我 们 直接 使 用 zw 来 估计 zw 会 更 合适 。 如 果 我 们 求 加 权 平 均 ， 即 
最 近 的 测量 比 之 前 的 测量 的 贡献 更 大 ， 那 么 或 许 效果 会 更 好 。 

虽然 这 种 主观 的 讨论 似乎 是 可 行 的 ， 但 是 它 并 没有 告诉 我 们 如 何 求 加 权 平 均 ， 并 且 任 何 一 种 
人 工 设 计 的 权 值 都 很 难 成 为 最 优 的 。 幸 运 的 是 ,我 们 可 以 更 加 系统 化 地 解决 这 种 问题 ， 方 法 是 
定义 一 个 概率 模型 ， 它 描述 了 时 间 的 演化 和 测量 过 程 ， 然 后 应 用 了 之 前 章节 中 讨论 的 推断 
和 学 习 方 法 。 这 里 ， 我们 关注 一 类 广泛 使 用 的 模型 ， 被 称 为 线性 动态 系统 (linear dynamical 
system) 。 

正如 我 们 已 经 看 到 的 ，HMM 对 应 于 图 13.5 给 出 的 状态 空间 模型 ， 其 中 潜在 变量 是 离散 的 ， 
但 是 发 射 概率 分 布 是 任意 的 。 这 个 图 显然 描述 了 相当 大 的 一 类 概率 分 布 ， 所 有 的 都 可 以 根据 公 
式 (13.6) 进行 分 解 。 我 们 现在 考虑 对 潜在 变量 的 其 他 类 型 的 概率 分 布 的 推广 。 特 别 地 ， 我 们 考 
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虑 连续 潜在 变量 ， 其 中 加 和 -乘积 算法 的 求 和 变 成 了 积分 。 然 而 ， 推 断 算法 的 一 般 形式 与 隐 马 尔 
可 夫 模 型 相同 。 值 得 注意 的 很 有 趣 的 一 点 是 ， 历 史上 ， 隐 马尔 可 夫 模 型 和 线性 动态 系统 是 独立 
研究 的 。 然 而 ， 一 旦 它们 都 用 图 模型 进行 表示 ， 它 们 之 间 的 深层 关系 就 立刻 变 得 明显 了 。 

一 个 重要 的 要 求 是 ， 我 们 保留 了 推断 的 高 效 算法 ， 它 与 链 的 长 度 是 线性 关系 。 例 如 ， 这 
要 求 ， 在 给 定 观 测 z21,.…. ,zn-_1 的 条 件 下 ， 表 示 zn-_1 的 后 验 概率 分 布 的 量 Q(zn_1) 在 与 转移 概 
率 p(zn | zn-1) 和 发 射 概率 p(x | zn) 相 乘 然 后 在 zn_1 上 求 和 或 积分 之 后 ， 我 们 得 到 的 z%, 上 的 概 
率 分 布 与 Q(zn_1) 上 的 概率 分 布 具 有 相同 的 函数 形式 。 这 就 是 说 ， 在 每 个 阶段 ， 概 率 分 布 不 可 以 
变 得 更 复杂 ， 而 是 仅仅 在 参数 值 上 发 生 改 变 。 毫 不 令 人 惊讶 地 说 ， 在 多 次 相 乘 之 后 具有 这 个 性 
质 的 唯一 的 分 布 就 是 指数 族 分 布 的 成 员 。 

这 里 ， 我 们 从 实际 应 用 的 角度 考虑 一 个 最 重要 的 例子 ， 即 高 斯 分 布 。 特 别 地 ， 我 们 考虑 一 个 
线性 高 斯 状态 空间 模型 ， 从 而 潜在 变量 {zv} 以 及 观测 变量 {z"} 是 多 元 高 斯 分 布 ， 均 值 是 图 表示 
中 的 状态 的 线性 函数 。 我 们 已 经 看 到 ， 线 性 高 斯 单元 的 有 向 图 等 价 于 所 有 变量 上 的 联合 高 斯 分 
布 。 此 外 ， 诸 如 &(zn) 的 边缘 概率 分 布 也 是 高 斯 分 布 ， 从 而 信息 的 函数 形式 被 保留 了 下 来 ,我们 
可 以 得 到 一 个 高 效 的 推断 算法 。 相 反 ， 假 设 发 射 概率 密度 p(zn | zn) 由 天 个 高 斯 分 布 混合 而 成 ， 
每 个 高 斯 分 布 的 均值 都 是 zn 的 线性 函数 ， 那 么 即使 &(z1) 是 一 个 高 斯 分 布 ，G(z2) 会 是 天 个 高 斯 
分 布 的 混合 ，Q(z3) 会 是 K? 个 高 斯 分 布 的 混合 ， 以 此 类 推 ， 因 此 精确 的 推断 没有 实际 价值 。 

我 们 已 经 看 到 隐 马 尔 科 夫 模型 可 以 看 成 第 9 章 的 混合 模型 的 一 个 推广 ， 它 允许 数据 之 间 具 有 
顺序 相关 性 。 类 似 地 ， 我 们 可 以 将 线性 动态 系统 看 成 第 12 章 的 连续 潜在 变量 模型 (例如 概 
率 PCA 和 因子 分 析 ) 的 推广 ， 每 对 结 点 {zn, xn} 表示 那个 特定 的 观测 下 的 一 个 线性 高 斯 潜在 变 
量 模 型 。 然 而 ， 潜 在 变量 {zn} 不 再 被 看 成 独立 的 ， 而 是 构成 了 一 个 马尔 科 夫 链 。 

由 于 模型 由 树 结构 的 有 向 图 表示 ， 因 此 推断 问题 可 以 使 用 加 和 -乘积 算法 高 效 地 求解 。 前 向 
递归 方程 ， 类 似 于 隐 马 尔 可 夫 模 型 的 a 信息 ， 被 称 为 Kalman 滤 波 (Kalman filter) 方程 (Kalman， 
1960; Zarchan and Musoff, 2005) ,后 向 递归 方程 ， 类 似 于 6 信息 ， 被 称 为 Kalman 平 滑 (Kalman 
smoother) 方程 ， 或 者 Rauch-Tung-Striebel (RTS) 方 程 (Rauch et al., 1965) 。Kalman 滤 波 被 广泛 
应 用 于 许多 实时 跟踪 应 用 中 。 

由 于 线性 动态 系统 是 一 个 线性 高 斯 模型 ， 因 此 在 所 有 变量 上 的 联合 概率 分 布 以 及 边缘 分 布 和 
条 件 分 布 都 是 高 斯 分 布 。 它 遵循 下 面 的 事实 : 单独 地 概率 最 大 的 潜在 变量 值 组 成 的 序列 与 概率 
最 大 的 潜在 变量 序列 相同 。 因 此 对 于 线性 动态 系统 ， 无 需 考虑 与 维特 比 算法 类 似 的 算法 。 

由 于 模型 的 条 件 概率 分 布 是 高 其 分布， 因此 我 们 可 以 将 转移 分 布 和 发 射 分 布 写成 一 般 的 形式 














pzn | zn_1) =N(zn | Azn_1,T,) (13.75) 
plzn | zn) =N (zn | Czn, 5) (13.70) 

初始 潜在 变量 也 服从 高 斯 分 布 ， 我 们 写成 
p(z1) 三 人 W(z1 | po, Po) (13.77) 





注意 ， 为 了 简化 记号 ,我们 省 略 了 高 斯 分 布 的 均值 中 额外 的 可 加 性 常数 。 事 实 上 ， 如 果 必 要 的 
话 ， 加 上 这 些 常数 是 很 容易 的 。 传 统 上 ， 这 些 概率 分 布 通常 使 用 噪声 线性 方程 表示 为 一 个 等 从 
的 形式 ， 噪 声 线性 方程 为 


Zn = Azn_1 + wn (13.78) 
Tn = Czn + Vn (13.79) 
21 三 HL0 十 亿 (13.80) 
其 中 噪声 项 的 概率 分 布 为 
w~N(w |o0,T) (13.81) 
v~N(v|0,5) (13.82) 
u~N(u|0,Po) (13.83) 


模型 的 参数 被 记 作 9 = {A,T, C, 允 ,Jo, Po}， 可 以 通过 EM 算法 使 用 最 大 似 然 的 方法 确定 。 
在 E 步 骤 中 ， 我 们 需要 求解 确定 潜在 变量 的 局 部 后 验 边 缘 概 率 的 推断 问题 ， 这 可 以 使 用 加 和 - 乘 
积 算法 高 效 地 求 出 ， 我 们 将 在 下 一 节 讨论 。 
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13.3.1 ”LDS 中 的 推断 


我 们 现在 考虑 寻找 以 观测 序列 为 条 件 的 潜在 变量 的 边缘 概率 分 布 的 问题 。 在 实时 应 用 中 ， 对 
于 给 定 的 参数 设置 ， 我 们 也 希望 以 观测 数据 z21,.…., xn-1 为 条 件 ， 对 于 下 一 个 潜在 状态 zn 以 及 下 
一 个 观测 zn 做 出 预测 。 这 些 推断 问题 可 以 使 用 加 和 -乘积 算法 高 效 地 解决 ， 这 个 算法 在 线性 动态 
系统 的 问题 中 会 给 出 Kalman 滤 波 方程 和 Kalman 平 滑 方程 。 

值得 强调 的 是 ， 因 为 线性 动态 系统 是 线性 高 斯 模型 ， 因 此 所 有 潜在 变量 和 观测 变量 上 的 联合 
概率 分 布 是 高 斯 分 布 ， 因 此 原则 上 我 们 可 以 使 用 之 前 章节 推导 的 多 元 变量 高 斯 分 布 的 边缘 概率 
人 
[高 效 的 方式 。 

线性 动态 系统 与 隐 马 尔 可 夫 模 型 具有 相同 的 分 解 方式 ， 由 公式 (13.6) 给 出 ， 并 且 由 图 13.14 
和 图 13.15 的 因子 图 描述 。 于 是 ， 推 断 问 题 的 形式 完全 相同 ， 唯 一 的 差别 在 于 潜在 变量 上 的 求 和 
被 蔡 换 为 积分 。 首 先 ， 我们 考虑 前 向 方程 ， 其 中 我 们 将 zn 看 做 根 结 点 ， 然 后 从 叶 结 点 h(z1) 将 
信息 传递 到 根 结 点 。 根 据 公式 (13.77) ， 初 始 信息 服从 高 斯 分 布 ， 并 且 由 于 每 个 因子 都 服从 高 
斯 分 布 ， 因 此 所 有 后 续 的 信息 也 都 服从 高 斯 分 布 。 按 照 传 统 ， 我 们 传递 的 信息 是 归 一 化 的 边缘 
概率 分 布 ， 对 应 于 p(zn | x1,.…, zn)， 我 们 将 其 记 作 


Q(zn) =N (zn | pn, Vn) (13.84) 


这 与 公式 (13.59) 给 出 的 隐 马 尔 科 夫 模型 的 离散 变量 情形 的 缩放 变量 Q(zn) 的 传播 完全 相同 ， 
因此 递归 方程 的 形式 为 








CnQ(zZn) = p(wn | Zn) alan Data | Zn_1) dzn_1 (13.85) 
使 用 公式 (13.75) 和 “(13.76) 替换 p(zn | zn-_1) 和 p(xn | zn)， 然 后 使 用 公式 (13.84) ， 我 们 看 
到 (13.85) 变 成 了 
CnN (zn | Wn Vn) = N (zn | Czn,) 


(13.80) 
f Ne | Azn_1,T)N (zn_1 | Hn-1; Vn_1) dzn_1 
这 里 我 们 假设 p_i1 和 Vwi 是 已 知 的 ， 并且 通 过 计算 公式 (13.86) 中 的 积分 ,我们 希望 确 
定 pn 和 YY 的 值 。 使 用 公式 (2.115) 给 出 的 结果 ， 这 个 积分 很 容易 计算 。 我 们 有 


. Nzn | A TON Ci | po 1, Wa i) dn 
=N (zn | Ap_1, Pn_1) 


(13.87) 


其 中 我 们 定义 了 

P, 1= AV, 1A' +T (13.88) 
我 们 现在 可 以 将 这 个 结果 与 公式 (13.86) 右 侧 的 第 一 个 因子 结合 ， 使 用 公式 (2.115) 和 
(2.116) ， 有 


Hn 二 4Hn 1 十 Kn (zn = CApn i1) (13.89) 
Vn= (IT—- KO)P, i (13.90) 
cn=N(zn | CA, 1,CP,_1CT +5) (13.91) 


这 里 ,我 们 使 用 了 和 矩阵 求 逆 的 恒等式 (C.5) 和 (C.7) ， 并 且 定义 了 Kalman 增 益 矩 阵 (Kalman 
gain matrix ) 
K» = Pn_10C7 (CP,_1C’ +5) (13.92) 


因此 ， 给 定 jw_ 1 和 Vn_-1， 以 及 新 的 观测 zn， 我 们 可 以 计算 zn 的 高 斯 边缘 分 布 ， 均 值 为 1,， 协 
方差 为 Vn， 归 一 化 系数 为 cn。 
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Zn—1l Zn - 
图 13.21: 线性 动态 系统 可 以 被 看 成 一 个 步骤 序列 ， 其 中 由 于 传播 造成 的 状态 变量 的 逐渐 增 大 的 不 确 


定性 由 新 数据 的 到 达 所 补偿 。 在 左 图 中 ， 蓝 色 曲 线 表 示 概 率 分 布 p(zn-1 | x1,.… ,zn-1)， 它 整合 了 截 
止 到 第 n 一 1 步 的 所 有 的 数据 。 由 方差 非 零 的 转移 概率 p(zn | zn-1) 产 生 的 传播 过 程 给 出 了 概率 分 
布 p(zn | Z1,.… ,zn-1)， 在 中 间 图 中 表示 为 红色 曲线 。 注 意 ,与 蓝 色 曲线 相 比 ， 红 色 曲 线 更 宽 ， 并且 有 
所 偏 移 。 为 了 对 比 ， 蓝 色 曲 线 用 虚线 画 出 。 下 一 个 数据 观测 z" 通 过 发 射 概率 密度 p(zn | zn) 产 生 贡 献 。 
右 图 中 的 绿色 曲线 表示 发 射 概率 与 zn 的 函数 关系 。 注 意 ， 它 不 是 关于 zn 的 概率 密度 ， 因 此 没有 被 归 一 
化 。 使 用 这 个 新 的 数据 点 会 产生 状态 概率 密度 的 一 个 修正 的 概率 分 布 p(zn | z1,………,zn)， 用 蓝 色 表示 。 
我 们 看 到 ， 与 p(zn | 21,.… ,Xn-1) 相 比 ， 数 据 的 观测 使 得 概率 分 布 产生 偏 移 ， 并 且 变 得 更 窄 了 。 为 了 对 
比 ，p(zn | 21,.… ,zn-1) 在 右 图 中 用 红色 虚线 表示 。 








这 些 递归 方程 的 初始 条 件 为 
clQ(z1) = p(z1)p(Z21 | z1) (13.93) 


由 于 p(z1) 由 公式 (13.77) 给 出 ,，p(z1 | zz) 由 公式 (13.76) 给 出 ， 因 此 我 们 可 以 再 次 使 用 
(2.115) 计算 cl ， 使 用 (2.116) 计算 pw 和 V1， 结 果 为 


Hi1= Kot Ki(z1— Cho) (13.94) 
Vi=(I— KiC)Po (13.95) 
c=N(zi| Cho,CPoCT +5) (13.90) 
其 中 
Ki1= PoC7(CPoC7 + 5)! (13.97) 


类 似 地 ， 线 性 动态 系统 的 似 然 函数 由 公式 (13.63) 给 出 ， 其 中 因子 cn 使 用 Kalman 滤 波 方 程 求 
解 。 

我 们 可 以 直观 地 给 出 从 zn_1 上 的 后 验 边 缘分 布 到 zn 上 的 后 验 边缘 分 布 的 步骤 ， 如 下 所 
述 。 在 公式 (13.89) 中 ,我们 可 以 将 Ap_1 看 成 zn 上 的 均值 的 预测 ， 得 到 这 个 预测 的 方法 是 
在 zn_1 上 取 均 值 ， 然 后 使 用 一 个 前 向 的 步骤 ， 使 用 转移 概率 矩阵 A 进行 投影 。 预 测 均 值 会 给 
出 zx 的 一 个 预测 观测 CAp,,，1， 得 到 这 个 预测 的 方法 是 讲 发 射 概率 矩阵 C 作 用 在 预测 的 隐 含 
状态 均值 上 。 我 们 可 以 将 隐 含 变量 分 布 的 均值 的 更 新 方程 (13.89) 看 成 将 预测 分 布 的 均 
值 4 1 加 上 一 个 修正 项 ， 这 个 修正 项 正比 于 预测 观测 与 实际 观测 之 间 的 误差 zn 一 C4H 1。 
这 个 修正 的 系数 由 Kalman 增 益 矩 阵 给 出 。 因 此 我 们 可 以 将 Kalman 滤 波 的 过 程 看 成 下 面 的 过 程 : 
首先 做 出 后 续 的 预测 ， 然 后 使 用 新 的 观测 来 修正 这 些 预 测 。 图 13.21 给 出 了 图 形 说 明 。 

如 果 我 们 考虑 下 面 的 情形 : 与 潜在 变量 的 变化 速率 相 比 ， 测 量 误差 相对 较 小 ， 那 么 我 们 看 
到 zn 的 后 验 概率 分 布 仅仅 依赖 于 当前 的 测量 zw,， 这 与 我 们 在 本 节 开 始 时 的 简单 例子 中 获得 的 直 
观感 受 相符 。 类 似 地 ， 如 果 与 观测 的 噪声 水 平 相 比 ， 潜 在 变量 的 变化 速度 较 慢 ， 那 么 我 们 发 
现 zn 的 后 验 均值 等 于 对 截止 到 那个 时 间 的 所 有 测量 求 平均 。 

Kalman 滤 波 的 一 个 重要 应 用 是 跟踪 。 图 13.22 使 用 一 个 物体 在 二 维 空间 移动 的 简单 例子 说 明 
了 这 一 点 。 











目前 位 置 ， 我 们 已 经 解决 了 在 给 定 z1 到 zx 的 观测 的 情况 下 寻找 结 点 zr 的 后 验 边缘 概率 的 问 
题 。 接 下 来 ,我 们 考虑 在 给 定 z1 到 zN 的 所 有 观测 的 条 件 下 ， 和 寻找 结 点 zn 的 边缘 概率 的 问题 。 对 


于 时 序数 据 ， 这 对 应 于 将 未 来 的 观测 以 及 过 去 的 观测 全 部 包含 在 内 。 虽 然 这 无 法 用 于 实时 预 
测 ， 但 是 它 在 学 习 模 型 的 参数 中 起 着 重要 的 作用 。 通 过 与 隐 马 尔 科 夫 模型 的 类 比 ， 这 个 问题 可 
以 这 样 求解 : 从 结 点 ZN 将 信息 反 向 传递 到 结 点 zl1 ， 然 后 将 这 个 信息 与 计算 a(zn) 的 前 向 信息 传 
递 阶段 得 到 的 信息 相 结 合 。 
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图 13.22: 线性 动态 系统 用 于 移动 物体 跟踪 的 一 个 说 明 。 蓝 点 表示 在 连续 的 时 刻 ， 二 维 空间 中 物体 的 真实 
位 置 ， 绿 点 表示 带 有 了 噪声 的 对 位 置 的 测量 ， 红 色 叉 号 表示 使 用 Kalman 滤 波 方 程 推断 出 的 后 验 概率 分 布 的 
均值 。 推 断 位 置 的 协 方差 由 红色 椭圆 表示 ， 它 对 应 于 一 个 标准 差 的 轮廓 线 。 








在 LDS 的 文献 中 ， 通 常 根据 y(zn) = Q(zn)B(zn) 表 示 后 向 递归 公式 ， 而 是 不 根据 8(z%)。 由 
于 7y(zn) 一 定 也 是 高 斯 分 布 ， 因 此 我 们 有 


入 入 


Nzn) = Q(zn)B(zn) = Nzn | fn, Vn) (13.98) 


为 了 推导 所 求 的 递归 方程 ， 我 们 从 B(zn) 的 反 向 递归 方程 (13.62) 开始 ， 它 对 于 连续 潜在 变量 ， 
可 以 写成 





op (wy 二 /ie Fl)Dp(Zn+l | zn+l)p(zn+l | Zn) dznt1 (13.99) 


我 们 现在 将 (13.99) 两 侧 乘 以 &(zn)， 使 用 公式 (13.75) 和 (13.76) 消去 p(zn+l | 
zn+1) 和 p(zn+t1 | zn)。 然 后 ， 我 们 使 用 (13.89) 、 (13.90) 和 (13.91) ,以 及 (13.98) ， 经 过 
一 些 计算 ， 我 们 有 


bn = An 十 Jn(Un+1l 十 Apn) (13.100) 
VV, = V+ J (Vn 一 -9 .JI (13.101) 

其 中 我 们 定义 了 
一 Vn4T(Pn)- (13.102) 





并 且 我 们 使 用 了 AV = PJ。 注 意 ， 这 些 递 归 方 程 要 求 首先 完成 前 向 传递 的 过 程 ， 从 而 在 后 
向 过 程 中 可 以 使 用 Un 和 mn。 
对 于 EM 算法 ， 我 们 也 需要 求 出 一 对 变量 的 后 验 边 缘分 布 ， 它 可 以 通过 公式 (13.65) 求 出 ， 


€(Zn-_1, Zn) = (cn) Q(zn_1)p(Tn | Zn)p(zn | Zn-1)B(zn) 
Nzni | pn_1 Vn_1)N (zn | Azn_1, TN (zn | Czn, DN (zn | Pn, Va) (13.103) 





CnQ (zn) 


使 用 公式 (13.84) 消去 Q(zn)， 整 理 :我 们 看 到 E(zn-1,zn) 是 一 个 高 斯 分 布 均值 
为 [hi_1; Pa] ，zn 和 zn-1 之 间 的 协 方差 为 


cov[zn-1 zn] = Jn_1Vn (13.104) 


13.3.2 LDS 中 的 学 习 
目前 为 止 , 我 们 已 经 研究 了 线性 动态 系统 中 的 推断 问题 ,假设 模型 的 参 
数 9 = {4,T,C, 允 , po, Po} 已 知 。 接 下 来 ,我们 考虑 使 用 最 大 似 然 方法 确定 这 些 参 数 
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(Ghahramani and Hinton, 1996b) 。 由 于 模型 具有 潜在 变量 ， 因 此 可 以 使 用 第 9 章 讨论 的 一 般 形 
式 的 EM 算法 来 解决 这 个 问题 。 

我 们 可 以 按照 下 面 的 方法 推导 线性 动态 系统 的 EM 算法 。 让 我 们 将 算法 在 某 个 特定 循环 上 的 
模型 参数 估计 值 记 作 6 日。 对 于 这 些 参数 ， 我 们 可 以 运行 推断 算法 来 确定 潜在 变量 的 后 验 概率 分 
布 p(Z | 和 ,9 昌 )， 或 者 更 精确 地 确定 那些 在 M 步 又 中 所 需 的 局 部 后 验 边 缘 概 率 。 特 别 地 ， 我 们 
需要 下 面 的 期 户 






































p [zn] = A (13.105) 
P[znz7 1] = VnJd i + Pp (13.106) 
Elznz | = VV, + ft (13.107) 


其 中 我 们 已 经 使 用 了 公式 (13.104) 。 
现在 我 们 考虑 完整 数据 对 数 似 然 函数 ， 它 通过 对 公式 (13.6) 取 对 数 的 方式 得 到 ， 因 此 结果 
为 


N 
Inp(X, Z|0)=Inp(zi | po, Po) + >》 Inp(zn | zn-1, A,T) 
se (13.108) 
N 
十 > Inp(zn | zn, C, ©) 
所 = 并 
其 中 我 们 显 式 地 写 出 了 对 参数 的 依赖 关系 。 我 们 现在 对 完整 数据 对 数 似 然 函 数 关 于 后 验 概率 分 
布 p(Z | 和 ,6 昌 ) 取 期 望 ， 它 定义 了 函数 


Q(6,6) = Ezonlinp(X, 2 1|0)] (13.109) 














在 M 步 又 中 ， 函 数 关于 6 的 分 量 进行 最 大 化 。 
首先 考虑 参数 jo 和 Po。 如 果 我 们 使 用 (13.77) 消去 公式 (13.108) 中 的 p(z1 | ko, Po)， 然 
后 关于 G 取 期 望 ， 那 么 我 们 有 














1 a 1 sr 了 划 | 
Q(6,6 昌 = -nlPol -Ezion | 了 (za 一 /0) Po1(z1 - mo)| 十 常数 


其 中 所 有 不 依赖 于 Ho 或 者 已 o 的 项 都 被 整合 到 了 可 加 性 常数 中 。 使 用 2.3.4 节 讨论 的 高 斯 分 布 的 最 
大 似 然 解 ， 关 于 jo 和 Po 进行 最 大 化 很 容易 进行 ， 结 果 为 


1 新 一 下 [21] (13.110) 












































V 新 一 了 [zizT] — ElzilElz7] (13.111) 


类 似 地 ， 为 了 最 优化 A4 和 工 ， 我 们 使 用 公式 (13.75) 消去 〈13.108) 中 的 p(zn | zn-1, 4,T)， 
结果 为 





AN 一 1 
9(9.9 ) = 一 一 世上 | 


(13.112) 











十 常数 





N 
1 
— zon Sa — Azn_1) T(zn — Azn_1) 


n=2 





其 中 常数 项 由 不 依赖 与 4 和 工 的 项 组 成 。 关 于 这 些 参数 最 大 化 可 得 


N N = 
4 新 一 > | > E [zn 3 (13.113) 


n=2 n=2 
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N 
1 
工 新 一 i 2 { E [nz]| 一 A 新 多 [zn 127 | 
| 
一 下 [S| (A 新 )7 十 A 新 区 [2 1z7 1] (4 新 ) 
注意 ，4 厅 必须 首先 计算 ， 然 后 它 的 结果 用 来 确定 新 。 
最 后 ， 为 了 确定 C 和 的 新 值 ， 我 们 使 用 公式 (13.76) 消去 公式 (13.108) 中 
的 p(n | Zn, C, >) EE 可 得 


N 
Q(0,0") = 一 本 上 


(13.114) 


























[> 
8 
3 

| 
Q 
Q 
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Eo Ezon 
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2 
nN 
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关于 C 和 允 最 大 化 ， 可 得 


























N N 到 
C 新 一 I Tn | 鳃 oo】 (13.115) 


N 
和 1 
于 新 3 > {Tne 一 新 EB [zn]eL 
n= 二 














(13.110) 














— wnE [zdl(CH)T + CHE [znzT](CH)T} 
我 们 得 到 了 使 用 最 大 似 然 方法 学 习 线性 动态 系统 的 参数 的 方法 。 引 入 先 验 概率 分 布 得 
到 MAP 售 计 的 方法 很 简单 。 使 用 第 10 章 讨论 的 近似 方法 ， 可 以 得 到 一 个 完整 的 贝 叶 斯 方法 。 篇 
幅 所 限 ， 不 在 这 里 详细 介绍 这 些 内 容 。 

















13.3.3 LDS 的 推广 


与 隐 马 尔 科 夫 模型 相同 ， 为 了 增强 模型 的 能 力 ， 我 们 对 推广 基本 的 线性 动态 系统 有 着 浓厚 的 
兴趣 。 虽 然 线性 高 斯 模型 的 假设 会 产生 高 效 的 推 新 和 学 习 算 法 ， 但 是 它 也 暗示 了 观测 变量 的 边 
缘 概 率 分 布 是 一 个 高 斯 分 布 ， 这 会 产生 很 大 的 局 限 性 。 线 性 动态 系统 的 一 个 简单 的 推广 是 使 用 
高 斯 混合 分 布 作为 初始 分 布 zz 。 如 果 这 个 混合 分 布 有 天 个 分 量 ， 那 么 前 向 递归 方程 (13.85) 会 
产生 隐 含 变量 z" 上 的 天 个 高 斯 分 布 的 混合 分 布 ， 因 此 模型 是 可 以 计算 的 。 

对 于 许多 应 用 来 说 ， 高 斯 发 射 概 率 密度 是 一 个 很 差 的 金 丝 。 如 果 我 们 尝试 使 用 K 个 高 斯 分 布 
的 混合 分 布 作为 发 射 概率 密度 ， 那 么 后 验 概率 分 布 &(zi) 也 会 是 天 个 高 斯 分 布 的 混合 。 然 而 ， 根 
据 公式 (13.85) ， 后 验 概率 分 布 Q(z2) 由 K?* 个 高 斯 分 布 混合 而 成 ， 以 此 类 推 ， Q(zn) 由 K" 个 高 
斯 分 布 混合 而 成 。 因 此 ， 分 量 的 数量 随 着 链 的 长 度 指数 增长 ， 因 此 模型 无 法 计算 。 

更 一 般 地 ， 引 入 与 线性 高 斯 (或 者 指数 族 ) 分 布 差距 较 大 的 转移 模型 或 者 发 射 模型 会 产生 一 
个 无 法 计算 的 推 类 问 题 。 我 们 可 以 进行 确定 性 的 近似 ， 例 如 假设 的 密度 过 滤 或 者 期 望 传播 ， 或 
者 我 们 可 以 使 用 13.3.4 节 讨论 的 采样 方法 。 一 个 广泛 使 用 的 方法 是 在 预测 分 布 的 均值 附近 进行 线 
性 化 从 而 进行 了 高 斯 近似 ， 这 就 产生 了 推广 的 Kalman 滤 波 (extended Kalman filter) (Zarchan 
and Musoff, 2005) 。 

与 隐 马 尔 可 夫 模 型 相同 ， 我 们 可 以 通过 扩展 图 表示 的 方法 来 对 基本 的 线性 动态 系统 进行 
有 趣 的 推广 。 例 如 ， 切 换 状 态 空间 模型 (switching state space model) (Ghahramani and Hinton， 
1998) 可 以 被 看 成 隐 马 尔 科 夫 模型 与 一 组 线性 动态 系统 的 的 组 合 。 模 型 有 多 个 由 连续 线性 高 斯 
潜在 变量 组 成 的 马尔 科 夫 链 ， 每 一 个 都 类 似 于 之 前 讨论 的 线性 动态 系统 的 潜在 链 。 模 型 中 还 包 
含 了 一 个 在 隐 马 尔 科 夫 模型 中 使 用 的 离散 变量 形式 的 马尔 科 夫 链 。 在 每 个 时 刻 的 输出 按照 下 面 
的 方式 确定 : 随机 选择 一 个 一 个 连续 潜在 链 ， 使 用 离散 潜在 变量 作为 一 个 开关 ， 然 后 从 对 应 的 
条 件 输出 分 布 发 射 一 个 观测 。 这 个 模型 中 精确 的 推断 是 无 法 进行 的 ， 但 是 变 分 方法 会 产生 出 一 
个 高 效 的 推断 方法 ， 涉 及 到 沿 着 每 个 连续 的 和 离散 的 马尔 科 夫 链 独立 进行 的 前 向 和 后 向 算法 。 
注意 ， 如 果 我 们 考虑 离散 潜在 变量 的 多 个 链 ， 人 然后 使 用 一 个 作为 开关 ， 从 剩余 的 链 中 选择 ， 那 
么 我 们 得 到 了 一 个 只 有 离散 潜在 变量 的 类 似 的 模型 ， 被 称 为 切换 隐 马 尔 科 夫 模型 (switching 
hidden Markov model) 。 











430 
wwaibbt.com DODDODODOD 


13.3.4 ”粒子 滤波 


对 于 没有 线性 高 斯 分 布 的 动态 系统 ， 例 如 使 用 非 高 斯 发 射 概率 密度 的 动态 系统 ， 为 了 得 到 一 
个 可 以 计算 的 推断 算法 ， 我 们 使 用 采样 算法 。 特 别 地 ， 我 们 可 以 使 用 11.1.5 节 讨论 的 采样 -重要 
性 - 重 采 样 方法 ， 得 到 一 个 顺序 的 蒙特 卡 罗 算 法 ， 被 称 为 粒子 滤波 。 

考虑 图 13.5 中 的 图 模型 表示 的 概率 分 布 ， 假 设 我 们 有 观测 变量 和 * = (zl …，,znz)， 我 们 希望 
从 后 验 概率 分 布 p(zn | 关 n) 中 抽取 个 样本 。 使 用 贝 叶 斯 定理 ， 我 们 有 














ef (zn)] = f(zn)p(en | Xn) dz 
= | ran)plen | ED, GR dzn 





ff(zn)p(zwn | zn)p(zn | Xn_1) dzn (13.117) 
~ fp(zn | zn)p(zn | Xn_1) dzn 
~ 
二 
其 中 {zg} 是 从 p(z， | XX,_1) 中 抽取 的 一 组 样本 ， 并 且 我 们 使 用 了 条 件 独 立 性 
质 p(zn | zw 入 mn_1) = p(zn | zn)， 这 个 性 质 来 自 于 图 13.5 所 示 的 图 模型 。 采 样 权 值 {ww 由 } 的 定义 


人 () 
(= a | zn 人 (13.118) 
Dn p(wn | Zn ) 


其 中 我 们 在 分 子 和 分 母 中 使 用 了 同样 的 样本 。 因 此 后 验 概率 分 布 p(zn | 苹 ) 由 样本 集合 {z} 以 
及 对 应 的 权 值 {w 们 } 表 示 。 注 意 ， 权 值 一 定 满足 0 < wh < 1 以 及 ,w= 1。 

由 于 我 们 希望 找到 一 个 顺序 采样 的 方法 ， 因 此 我 们 假设 我 们 在 时 刻 n 已 经 得 到 了 一 组 样本 和 
权 值 ， 并 且 我 们 顺序 地 观测 到 了 zn41 的 值 ， 我 们 希望 找到 时 刻 n 十 1 的 权 值 和 样本 。 我 们 首先 从 
概率 分 布 p(zn41 | 站 ) 中 采样 。 这 很 容易 做 到 ， 因 为 使 用 贝 叶 斯 定义 ， 我 们 有 





D(zn+l | Xn) 三 [Ee | Zn, Xn)p(zn | Xn) dzn 
= je | zn)P(zn | Xn) dzn 


= [Ee | Zn)p(zn | Bn, Xn_1) dzn (13.119) 


EE: Jp(zn+1l | Zn)p(Tn | Zn)p(Zn | Xn_1) dzn 
f plzn | zn)p(zn | Xn-1) dzn 


总 
1 





其 中 我 们 使 用 了 条 件 独立 性 质 
D(zn+l | Zn, Xn) = p(nti | Zn) (13.120) 


p(xn | Zn, Xn_1) = p(Tn | Zh) (13.121) 


这 可 以 通过 对 图 13.5 所 示 的 图 模型 应 用 d- 划 分 准则 的 方式 得 到 。 公 式 (13.119) 的 概率 分 布 是 一 
个 混合 分 布 ， 样 本 可 以 通过 下 面 的 方式 得 到 : 根据 混合 系数 ww 人 1 指定 的 概率 ， 选 择 一 个 分 量 7， 
然后 从 对 应 的 分 布 中 采样 。 

总 结 一 下 ， 我 们 可 以 将 粒子 滤波 算法 的 每 一 步 看 成 由 两 个 阶段 组 成 。 在 时 刻 n， 我 们 有 
一 个 后 验 概率 p(zn | XX) 的 样本 表示 ， 它 根据 {z 由 } 以 及 对 应 的 权 值 fw} 表示 。 这 可 以 看 
成 形 如 (13.119) 的 混合 表示 。 为 了 得 到 下 一 个 时 刻 的 对 应 的 表示 ， 我 们 首先 从 混合 概率 
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p(zn|X,) 


RS 
NH I 
人 让 


pl(zn+1|Xn) 





D(xn+il2n+1) 






图 13.23: 对 于 一 维 潜在 空间 ， 粒 子 滤波 操作 的 图 形 表 示 。 在 时 刻 %n， 后 验 概率 分 布 p(z | zn) 被 表示 为 混 
合 概率 分 布 ， 用 回国 和 个 它 的 大 小 正比 于 权 值 w& 。 之 后 ， 一 组 亏 个 样本 从 这 个 概率 分 布 中 抽取 ， 新 的 
权 值 w 人 WO ;使 用 p(znti | z 人 的 1) 计算 。 


Pp(Zn+1 [X41) 





分 布 (13.119) 中 抽取 LL 个 样本 ， 然 后 对 于 每 个 样本 ,我们 使 用 新 的 观测 zn41 计 算 对 应 的 权 
值 w 中 1 cc p(zni1 | z 中 1)。 图 13.23 说 明了 单一 变量 s 的 情形 。 
粒子 滤波 或 者 顺序 蒙特 卡 罗 方 法 在 文献 中 有 多 个 名 字 ， 包括 自 助 滤波 (bootstrap filter) 
(Gordon et al., 1993) 、 最 适 幸 存 (survival ofthe fittest) (kanazawa et al., 1995) 以 及 凝结 算法 
(condensation algorithm) (Isard and Blake, 1998) 。 


13.4 ”练习 


(13.1) (*) 使 用 8.2 节 讨论 的 d 划 分 方法 ， 验 证 图 13.3 给 出 的 共有 NN 个 结 点 的 马尔 科 夫 模型 
满足 条 件 独 立 性 质 (13.3) ， 其 中 n = 2,.…., 入。 类 似 地 ， 证 明 图 13.4 中 的 总 计 有 六 个 结 点 的 图 
描述 的 模型 满足 条 : 件 独立 性 质 


p(wn | T1,... , Tn—1) > p(Tn | Tn-—l, Tn_2) (13.122) 


其 中 n= 3,...,N。 

(13.2) 9) 考虑 对 应 于 图 13.3 的 有 向 图 的 联合 概率 分 布 (13.2) 。 使 用 概率 的 加 和 规则 和 
乘积 规则 ， 验 证 这 个 联合 概率 分 布 满足 条 件 独立 性 质 (13.3) ， 其 中 nn = 2,...,N。 类 似 地 ,证 
明 联 合 概率 分 布 (13.4) 描述 的 二 阶 马尔 科 夫 链 满 足 条 件 独立 性 质 


D(zZn | T1,... , Tn—1) p(Tn | Tn—l, Tn_2) (13.123) 


其 中 n = 3,...,N。 

(13.3) (0) 通过 使 用 d- 划 分 ， 证明， 图 13.5 的 有 向 图 表示 的 状态 空间 模型 的 观测 变量 的 分 
布 p(z1,.….,zN) 不 满足 任何 条 件 独立 性 质 ， 因 此 无 法 利用 任何 阶 数 的 马尔 科 夫 性 质 。 

(13.4) Ge 考虑 一 个 马尔 科 夫 模型 ， 其 中 发 射 概率 由 参数 化 模型 p(x | z,w) 表 示 ， 例 如 
一 个 线性 回归 模型 或 者 一 个 神经 网 络 ， 其 中 心 是 可 调节 参数 组 成 的 向 量 。 描 述 参数 好 可 以 如 何 
使 用 最 大 似 然 方法 从 数据 中 学 习 到 。 

(13.5) ”(**) 通过 最 大 化 完整 数据 对 数 似 然 函 数 的 期 望 (13.17) ， 使 用 拉 格 关上 日 乘 数 来 强 
制 满足 r 和 4 上 的 加 和 限制 ， 验 证 隐 马 尔 可 夫 模 型 的 初始 状态 概率 和 转移 概率 的 参数 的 M 步 又 方 
程 (13.18) 和 (13.19) 。 

(13.6) (*) 证 明 ， 如 果 隐 马尔 科 夫 模型 的 参数 r 或 4 的 任意 元 素 被 初始 化 为 零 ， 那 么 那些 
元 素 在 EM 算法 的 所 有 后 续 更 新 中 会 始终 保持 为 零 。 

(13.7) (*) 考虑 带 有 高 斯 发 射 密度 的 隐 马 尔 可 夫 模 型 。 证 明 ， 函 数 Q(9, 9 日) 关于 高 斯 分 布 
的 均值 和 协 方 差 的 最 大 化 会 得 到 M 步 又 方程 (13.20) 和 “(13.21) 。 

(13.8) (**) 一 个 隐 马 尔 可 夫 模 型 ， 它 具有 离散 的 观测 ， 服 从 一 个 多 项 式 分 布 , 证明 ,给 
定 隐 含 变 量 的 条 件 下 ， 观 测 的 条 件 概率 分 布 为 〈13.22) ， 对 应 的 M 步 又 方程 为 〈13.23) 。 对 于 
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具有 多 个 输出 变量 ， 且 每 个 变量 都 由 伯 努 利 条 件 分 布控 制 的 隐 马 尔 科 夫 模 型 ， 写 出 类 似 的 条 件 
概率 分 布 方程 和 M 步 又 方程 。 提 示 : 如 果 必 要 的 话 ， 参 考 2.1 节 和 2.2 节 关于 独立 同 分 布 数据 的 对 
应 的 最 大 似 然 解 的 讨论 。 

(13.9) ”Gx*) 使 用 d- 划 分 准则 ， 验 证 由 公式 〈13.6) 定义 的 隐 马 尔 可 夫 模 型 的 联合 概率 分 布 
满足 的 条 件 独立 性 质 (13.24) 到 (13.31) 。 

(13.10) (xx) 通过 使 用 概率 的 加 和 规则 和 乘积 规则 ， 验 证 由 公式 (13.6) 定义 的 隐 马 尔 科 
夫 模型 的 联合 概率 分 布 满足 的 条 件 独 立 性 质 (13.24) 到 (13.31) 。 

(13.11) (**) 使 用 因子 图 的 一 个 因子 的 变量 上 的 边缘 概率 分 布 的 表达 式 (8.72) 以 及 13.2.3 
节 得 到 的 加 和 -乘积 算法 中 的 信息 的 结果 ， 推 导 隐 马尔 可 夫 模 型 中 两 个 相继 的 潜在 变量 上 的 联合 
后 验 概率 分 布 的 结果 (13.43) 。 

(13.12) (+) 假设 我 们 希望 通过 最 大 似 然 方 法 ， 使 用 由 RR 个 独立 的 观测 序列 组 成 的 数据 
( 记 作 关 个， 其 中 7 = 1,...,R) ， 训 练 一 个 马尔 科 夫 模型 。 证 明 ， 在 EM 算法 的 E 步 骤 中 ,我 们 
通过 对 每 个 序列 独立 地 运行 递归 和 8 递归 ， 简 单 地 计算 出 了 湾 在 变量 上 的 后 验 概 率 分 布 。 同 时 
证 明 ， 在 M 步 骤 中 ， 初 始 概率 和 转移 概率 的 参数 的 重新 估计 过 程 使 用 的 是 (13.18) 和 (13.19) 
的 一 种 修改 的 形式 ， 形 式 为 

| 


下 


R N (7) (7) 
A 加 >_r-1 Dn CME 2 (13.125) 


| 3 3 4 站 


其 中 为 了 记号 的 方便 ， 我们 假设 序列 具有 相同 的 长 度 (很 容易 推广 到 具有 不 同 长 度 的 序列 的 情 
形 ) 。 类 似 地 ， 高 斯 发 射 模型 的 均值 的 重 估计 的 M 步 又 方程 为 








(13.124) 





Tk 一 























R_ YN (sn) el) 
a > nl en (13.120) 
Di Dn YZng ) 
注意 ， 其 他 发 射 模 型 的 参数 和 概率 分 布 的 M 步 又 方程 的 形式 与 此 类 似 。 
(13.13) ”(*) 使 用 因子 图 中 从 因子 结 点 到 变量 结 点 传递 的 信息 的 定义 (8.64) ， 以 及 隐 马 


尔 可 夫 模 型 的 联合 概率 分 布 的 表达 式 (13.6) ， 证 明 alpha 信 息 的 定义 (13.50) 与 (13.34) 相 


同 








(13.14) ”CG*) 使 用 因子 图 中 从 因子 结 点 到 变量 结 点 传递 的 信息 的 定义 (8.67) ， 以 及 隐 马 

尔 可 夫 模 型 的 联合 概率 分 布 的 表达 式 (13.6) ， 证 明 beta 信 息 的 定义 (13.52) 与 (13.35) 相同 。 

(13.15) ”(**) 使 用 隐 马 尔 可 夫 模 型 中 的 边缘 概率 的 表达 式 (13.33) 和 “(13.43) ， 推 导 用 
重新 缩放 的 变量 表达 的 对 应 的 结果 (13.64) 和 (13.65) 。 

(13.16) ”C3*) 本 练习 中 ， 我 们 直接 从 联合 概率 分 布 的 表达 式 (13.6) 中 推导 维特 比 算法 的 
前 问 信 息 传递 方程 。 这 涉及 到 在 所 有 的 隐 含 变量 z1,...,zN 上 最 大 化 。 通 过 取 对 数 ， 然 后 交换 最 
大 化 运算 与 求 和 运算 的 顺序 ， 推导 递归 方程 (13.68) ， 其 中 w(zm) 由 公式 〈13.70) 定义 。 证 明 
这 个 递归 的 初始 条 件 由 (13.69) 给 出 。 

(13.17) (*) 证 明 ， 图 13.18 表 示 的 输入 输出 隐 马 尔 可 夫 模 型 的 有 向 图 可 以 表示 成 图 13.15 
所 示 的 树 结构 的 因子 图 的 形式 。 写 出 初始 因子 h(z1) 和 一 般 的 因子 太 (zn-1, zn) 的 表达 式 ， 其 
中 2 <n<N。 

(13.18) ”(***) 使 用 练习 13.17 的 结果 ， 推 导 图 13.18 所 示 的 输入 输出 隐 马 尔 可 夫 模 型 的 前 向 
后 向 算法 的 递归 方程 ， 包 括 初始 条 件 。 

(13.19) ”(*) Kalman 滤 波 和 平滑 方程 使 得 线性 动态 系统 中 各 个 潜在 变量 上 的 后 验 概率 分 布 
(以 所 有 观测 变量 为 条 件 ) 可 以 高 效 地 求 出 。 证 明 ， 通 过 分 别 最 大 化 每 个 后 验 概率 分 布 得 到 的 
潜在 变量 序列 的 值 与 潜在 变量 的 最 可 能 的 序列 相同 。 为 了 完成 这 一 点 ， 我 们 注意 到 线性 动态 系 
统 中 的 潜在 变量 和 观测 变量 的 联合 概率 分 布 是 高 斯 分 布 ， 从 而 所 有 的 条 件 概 率 分 布 和 边缘 概率 
分 布 也 是 高 斯 分 布 ， 然 后 使 用 公式 (2.98) 给 出 的 结果 即 可 。 

(13.20) ”GC*) 使 用 公式 (2.115) 的 结果 证 明 (13.87) 。 

(13.21) ”CG*) 使 用 公式 (2.115) 和 “(2.116) 的 结果 ， 以 及 和 矩阵 恒等式 (C.5) 和 “(C.7) ， 
推导 结果 (13.89) 、 (13.90) 和 (13.91) ， 其 中 Kalman 增 益 和 矩阵 Ki 由 公式 (13.92) 定义 。 
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(13.22) ”(**) 使 用 公式 (13.93) 以 及 定义 〈13.76) 、 (13.77) 和 公式 (2.115) 给 出 的 结 
果 ， 推导 (13.96) 。 
(13.23) ”(**) 使 用 公式 (13.93) 以 及 定义 〈13.76) 、 (13.77) 和 公式 (2.116) 给 出 的 结 
果 ， 推导 (13.94) 、 (13.95) 和 (13.97) 。 
(13.24) ”(**) 考虑 对 公式 (13.75) 和 (13.76) 的 推广 ， 其 中 我 们 在 高 斯 均值 中 引入 常数 
项 a 和 c， 即 
pzn | Zn_1)=N(zn | Azn_1+t+a,T) (13.127) 


p(Tn | zn) = N(xn | Czn + ce,>) (13.128) 


证 明 ， 这 个 推广 可 以 在 本 章 讨论 的 框架 中 进行 改写 ， 方 法 是 定义 一 个 状态 向 量 z， 它 具有 一 个 额 
外 的 分 量 固定 为 1， 然 后 对 矩阵 4 和 C 进 行 增 广 ， 使 其 包含 额外 的 一 列 ， 对 应 于 参数 ac 和 ec。 

(13.25) ”(*) 本 练习 中 ， 我 们 证 明 ， 当 Kalman 滤 波 方程 被 应 用 于 独立 观测 时 ， 方 程 会 
简化 为 23 节 给 出 的 单一 高 斯 分 布 的 最 大 似 然 解 的 结果 。 考 虑 寻找 一 个 高 斯 随机 变量 z 的 
均值 4 的 问题 ， 其 中 我 们 给 定 了 一 组 独立 的 观测 {zx1,.…,zN}。 为 了 对 这 个 量 进行 建 模 ， 我 
们 可 以 使 用 由 公式 (13.75) 和 “(13.76) 控制 的 线性 动态 系统 ， 潜 在 变量 为 {21,.…,zN}， 其 
中 C =1,4=1,T=0。 令 初始 状态 的 参数 jo 和 Po 分 别 记 作 yo 和 o5， 假 设 纪 变 成 了 o?。 从 公式 
(13.89) 和 “13.90) 给 出 的 一 般 结果 以 及 (13.94) 和 “13.95) 开始 ， 写 出 对 应 的 Kalman 泪 波 方 
程 。 证 明 ， 这 些 方程 等 价 于 直接 考察 独立 数据 得 到 的 结果 (2.141) 和 (2.142) 。 

(13.26) (sy) 考虑 13.3 节 讨论 的 线性 动态 系统 的 一 种 等 价 于 概率 PCA 的 具体 实例 ， 即 转移 
矩阵 4 = 0， 协 方差 T = 工 ， 噪 声 协 方差 刀 = c2T。 通 过 使 用 矩阵 求 逆 的 恒等式 (C.7) ,证 明 ， 
如 果 发 射 概率 密度 矩阵 C 被 记 作 W ， 那 么 隐 含 状态 上 的 后 验 概 率 分 布 由 公式 (13.89) 定义 ， 并 
且 公式 (13.90) 会 简化 为 概率 PCA 的 结果 (12.42) ， 其 中 我 们 假设 公式 (12.42) 中 j= 0。 

(13.27) (*) 考虑 13.3 节 讨论 的 线性 动态 系统 ， 其 中 观测 噪声 的 幅 值 趋 于 零 ， 即 允 = 0。 证 
明 , 在 C = I 的 情况 下 ，zn 的 后 验 概率 分 布 的 均值 为 zw,， 方 差 为 零 。 这 与 我 们 的 直觉 相符 ， 即 
i 0 0 
测 。 

(13.28) ”(**) 考虑 133 节 讨论 的 线性 动态 系统 的 一 个 具体 的 实例 ， 其 中 状态 变量 zn 被 
限制 为 与 前 一 个 状态 变量 相等 ， 这 对 应 于 4 = 7T 和 T = 0。 为 了 简化 ， 我 们 还 假设 C = TI， 以 
及 Po 一 oo， 从 而 z 的 初始 条 件 不 再 重要 ， 预 测 完 全 由 数据 确定 。 使 用 归纳 法 ， 证 明 状 态 zn 的 后 
验 均值 由 zl1,.…，,zn 的 均值 确定 。 这 对 应 于 直观 的 结果 ， 即 如 果 状 态 变 量 是 常量 ， 那 么 我 们 最 好 
的 估计 时 对 观测 求 平 均 。 

(13.29) ”>%) 从 反 向 递归 方程 (13.99) 开始 ， 推 导 高 斯 线性 动态 系统 的 RTS 平 滑 方程 
(13.100) 和 (13.101) 。 

(13.30) ”GY*) 从 状态 空间 模型 的 对 之 间 的 后 验 边 缘 概 率 的 结果 〈13.65) 开始 ， 推 导 高 斯 线 
性 动态 系统 情形 下 的 具体 形式 〈13.103) 。 

(13.31) (+) 从 公式 (13.103) 给 出 的 结果 开始 ， 通 过 使 用 公式 (13.84) 消去 Ga(zn)， 验 
证 zn 和 zn-1 之 间 的 协 方差 的 结果 (13.104) 。 

(13.32) ”(**) 验证 线性 动态 系统 中 jo 和 Po 的 M 步 又 方程 的 结果 (13.110) 和 (13.111) 。 

(13.33) ”(**) 验证 线性 动态 系统 中 4 和 工 的 M 步 骤 方 程 的 结果 (13.113) 和 (13.114) 。 

(13.34) (**) 验证 线性 动态 系统 中 C 和 互 的 M 步 又 方程 的 结果 (13.115) 和 (13.116) 。 
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14 ”组合 模型 


在 之 前 的 章节 中 ， 我 们 研究 了 一 系列 不 同 的 模型 用 于 解决 分 类 问题 和 回归 问题 。 经 常 发 现 的 
一 件 事 情 是 ， 我 们 可 以 通过 以 某 种 方式 将 多 个 模型 结合 到 一 起 的 方法 来 提升 性 能 ， 而 不 是 独立 
地 使 用 一 个 单独 的 模型 。 例 如 ， 我 们 可 以 训练 ZL 个 不 同 的 模型 ， 然 后 使 用 每 个 模型 给 出 的 预测 
的 平均 值 进行 预测 。 这 样 的 模型 的 组 合 有 时 被 称 为 委员 会 (committee) 。 在 14.2 节 ， 我 们 讨论 
在 实际 问题 中 使 用 委员 会 概念 的 方式 ， 我 们 也 会 给 出 一 些 深刻 的 认识 ， 来 理解 它 为 什么 有 时 会 
是 一 个 有 效 的 方法 。 

委员 会 方法 的 一 个 重要 的 变 体 ， 被 称 为 提升 方法 (boosting) 。 这 种 方法 按 顺 序 训练 多 个 模 
型 ， 其 中 用 来 训练 一 个 特定 模型 的 误差 函数 依赖 于 前 一 个 模型 的 表现 。 与 单一 模型 相 比 ， 这 个 
模型 可 以 对 性 能 产生 显著 的 提升 ， 将 在 14.3 节 讨论 。 

与 对 一 组 模型 的 预测 求 平均 的 方法 不 同 ， 另 一 种 形式 的 模型 组 合 是 选择 一 个 模型 进行 预测 ， 
其 中 模型 的 选择 是 输入 变量 的 一 个 函数 。 因 此 不 同 的 模型 用 于 对 输入 空间 的 不 同 的 区 域 进行 预 
测 。 这 种 方法 的 一 种 广泛 使 用 的 框架 被 称 为 决策 树 (decision tree) ， 其 中 选择 的 过 程 可 以 被 描 
述 为 一 个 二 值 选择 的 序列 ， 对 应 于 对 树 结构 的 遍历 ， 将 在 14.4 节 讨论 。 这 种 情况 下 ， 各 个 单独 的 
模型 通常 被 选 得 非常 简单 ， 整 体 的 模型 灵活 性 产生 于 与 输入 相关 的 选择 过 程 。 决 策 树 既 可 以 应 
用 于 分 类 问题 也 可 以 应 用 于 回归 问题 。 

决策 树 的 一 个 局 限 性 是 对 于 输入 空间 的 划分 基于 的 是 一 种 硬 划 分 ， 对 于 输入 变量 的 任意 给 定 
的 值 ， 只 有 一 个 模型 用 于 做 出 预测 。 通 过 将 一 个 概率 框架 用 于 模型 组 合 ， 决 策 的 过 程 可 以 被 软 
化 ， 将 在 14.5 节 讨论 。 例 如 ， 如 果 我 们 有 一 组 K 个 模型 用 于 描述 条 件 概 率 分 布 p(t | z, 有) ， 其 
中 必 是 输入 变量 ，t 是 目标 变量 ，k 二 1,.…, 下 是 模型 的 索引 ， 那 么 我 们 可 以 进行 一 种 概率 形式 的 
混合 ， 形 式 为 





























Kk 
p(t | 2) = 》 re(z)p(t | x,k) (14.1) 
k=1 


其 中 mrk(z) = p(k | z) 表 示 与 输入 相关 的 混合 系数 。 这 样 的 模型 可 以 被 看 成 混合 概率 分 布 ， 其 中 
分 量 的 概率 密度 以 及 混合 系数 都 以 输入 变量 为 条 件 ， 被 称 为 专家 混合 (mixture of experts) 。 这 
种 模型 与 5.6 节 讨论 的 混合 密度 网 络 密切 相关 。 


141” 贝 叶 斯 模型 平均 


将 模型 组 合 方法 与 贝 叶 斯 模型 平均 方法 区 分 开 是 很 重要 的 ， 这 两 种 方法 经 常 被 弄 混淆 。 为 了 
理解 二 者 的 差异 ， 考 虑 使 用 高 斯 混合 模型 进行 概率 密度 估计 的 例子 ， 其 中 若干 的 高 斯 分 量 以 概 
率 的 方式 进行 组 合 。 模 型 包含 一 个 二 值 潜在 变量 z， 它 表示 混合 分 布 中 的 哪个 分 量 用 于 生成 对 应 
的 数据 点 。 因 此 ， 模 型 通过 联合 概率 分 布 





p(x, Zz) (14.2) 
进行 具体 化 ,观测 变量 z 上 的 对 应 的 概率 密度 通过 对 潜在 变量 求 和 的 方式 得 到 ， 即 
Dw) = > (Da) (14.3) 


在 我 们 的 高 斯 混合 模型 的 例子 中 ， 这 会 得 到 一 个 概率 分 布 ， 形 式 为 


K 
pe) = > nN (| oi) 014 
大 三 并 





各 个 符号 的 含义 与 之 前 相同 。 这 是 模型 组 合 的 一 个 例子 。 对 于 独立 同 分 布 的 数据 ， 我 们 可 以 使 
用 公式 (14.3) 将 数据 集 六 = {x1,.… ,ZN} 的 边缘 概率 写成 下 面 的 形式 


N N 
p(X) [zz [I Erte) (14.5) 
n=1 n=1 | zn, 
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因此 我 们 看 到 ， 每 个 观测 数据 点 zn 有 一 个 对 应 的 法 在 变量 zn。 
现在 假设 我 们 有 若干 个 不 同 的 模型 ， 索 引 为 h = 1,.…., 瑟 ， 先 验 概率 分 布 为 p(h)。 例 如 ,一 
个 模型 可 能 是 高 斯 混合 模型 ， 另 一 个 模型 可 能 是 柯 西 分 布 的 混合 。 数 据 集 上 的 边缘 概率 分 布 为 





H 
p(X) = p(X |h)p(h) (14.0 
h=1 


这 是 贝 叶 斯 模型 平均 的 一 个 例子 。 这 个 在 上 的 求 和 式 的 意义 是 ， 只 有 一 个 模型 用 于 生成 整个 数 
据 集 ，h 上 的 概率 分 布 仅仅 反映 了 我 们 对 于 究 竞 是 哪个 模型 用 于 生成 数据 的 不 确定 性 。 随 着 数据 
集 规 模 的 增加 ， 这 个 不 确定 性 会 减 小 ， 后 验 概率 分 布 p(h | 关 ) 会 逐渐 集中 于 模型 中 的 某 一 个 。 

这 就 强调 了 贝 叶 斯 模型 平均 和 模型 组 合 的 一 个 关键 的 不 同 ， 因 为 在 贝 叶 斯 模型 平均 中 ， 整 个 
数据 集 由 单一 的 模型 生成 。 相 反 ， 当 我 们 像 (14.5) 那样 组 合 多 个 模型 时 ， 我 们 看 到 数据 集中 的 
不 同 的 数据 点 可 以 由 潜在 变量 z 的 不 同 的 值 生 成 ， 即 由 不 同 的 分 量 生成 。 

虽然 我 们 研究 的 是 边缘 概率 分 布 p( 针 )， 但 是 同样 的 讨论 适用 于 预测 分 布 p(x | 针 ) 以 及 诸 
如 p(t | z, 关 , 工 ) 这 样 的 条 件 概率 分 布 。 





14.2 ”委员 会 


构建 一 个 委员 会 的 最 简单 的 方法 是 对 一 组 独立 的 模型 的 预测 取 平 均 。 这 样 的 方法 的 动机 可 以 
从 频率 学 家 的 观点 看 出 来 。 这 种 观点 考虑 偏 置 和 方差 之 间 的 折 中 ， 它 将 模型 的 误差 分 解 为 偏 置 
分 量 和 方差 分 量 ， 其 中 偏 置 分 量 产生 于 模型 和 真实 的 需要 预测 的 函数 之 间 的 差异 ， 方 差分 量 表 
示 模 型 对 于 单独 的 数据 点 的 敏感 性 。 回 忆 一 下 ， 根 据 图 3.5， 当 我 们 使 用 正弦 数据 训练 多 个 多 项 
式 函数 ， 然 后 对 得 到 的 函数 求 平均 时 ， 来 自 方差 项 的 贡献 倾向 于 被 抵消 掉 ， 从 而 产生 了 预测 的 
提升 。 当 我 们 对 一 组 低 偏 置 的 模型 (对 应 于 高 阶 多 项 式 ) 求 平均 时 ,我 们 得 到 的 对 用 于 生成 数 
据 的 正弦 通 数 的 精确 的 预测 。 

当然 ， 在 实际 应 用 中 ， 我 们 只 有 一 个 单独 的 数据 集 ， 因 此 我 们 必须 寻找 一 种 方式 来 表示 委员 
会 中 不 同 模型 之 间 的 变化 性 。 一 种 方法 是 使 用 1.2.3 节 讨论 的 自助 (bootstrap) 数据 集 。 考 虑 一 个 
回归 问题 ， 其 中 我 们 试图 预测 一 个 连续 变量 的 值 ， 并 且 假 设 我 们 生成 了 M 个 自助 数据 集 然后 使 
用 每 个 数据 集训 练 处 了 预测 模型 的 一 个 独立 的 副本 ym(z)， 其 中 m = 1,.…., MM。 委员会 预测 为 


M 
ycoM(Z) = >》 yn(z) (14.7) 
m=1 


这 个 方法 被 称 为 自助 聚集 (bootstrap aggregation) 或 者 打包 (bagging) (Breiman, 1996) 。 
假设 我 们 试图 预测 的 真实 的 回归 函数 为 PR(z)， 从 而 每 个 模型 的 输出 可 以 写成 真实 值 加 上 误差 
的 形式 ， 即 
UVUm(Z) 三 几 (Z) 十 em(Z) (14.8) 


这 样 ， 平 方 和 误差 函数 的 形式 为 
Ry [{ym (x) — h(2)}] = Ex [em (2)’] (14.9) 
其 中 了 z[] 表 示 关 于 输入 向 量 z 的 一 个 频率 学 家 的 期 望 。 于 是 ， 各 个 模型 独立 预测 的 平均 误差 为 


















































1 M 
OV SpEalea(2) |] (14.10) 
m=1 


类 似 地 ， 委 员 会 方法 的 预测 (14.7) 的 期 望 误差 为 


入 2 
Ecow = Ez 信 >》 ， gm(z) 一 re 
m=1 














(14.11) 
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图 14.1: 提升 方法 框架 的 图 形 表示 。 每 个 基 分 类 器 ym(z) 都 在 训练 数据 集 的 一 个 加 权 形式 ( 蓝 色 箭头 ) 上 
进行 训练 ， 权 值 ww" 依赖 于 前 一 个 基 分 类 器 yn_1(z) (绿色 箭头 ) 的 表现 。 一 旦 所 有 的 基 分 类 器 训练 完 
毕 ， 它 们 被 组 合 得 到 最 终 的 分 类 器 Zr(z) (红色 箭头 ) 。 


如 果 我 们 假设 误差 的 均值 为 零 ， 且 不 具有 相关 性 ， 即 


























Pa[en(zjj 一 0 (14.12) 
Eylem(T)a(z)|=0, mz#! (14.13) 
那么 我 们 有 , 


这 个 显然 具有 戏剧 性 的 结果 表明 ， 一 个 模型 的 平均 误差 可 以 仅仅 通过 对 模型 的 M 个 版 本 求 平均 
的 方式 减 小 M 倍 。 不 幸 的 是 ， 它 依赖 于 我 们 的 关键 假设 ， 即 由 各 个 单独 的 模型 产生 的 误差 是 不 
相关 的 。 在 实际 应 用 中 ， 误 差 通常 是 高 度 相 关 的 ， 因 此 整体 的 误差 下 降 是 通常 是 很 小 的 。 然 
而 ， 可 以 证 明 ， 委 员 会 误差 的 期 望 不 会 超过 各 个 分 量 模型 的 期 望 误 盖 ， 即 Eco < Bav。 为 了 
得 到 更 显著 的 提升 ， 我 们 转向 一 种 更 加 复杂 的 构建 委员 会 的 方法 ， 被 称 为 提升 方法 。 


14.3 ”提升 方法 


提升 方法 是 一 种 很 强大 的 方法 ， 它 将 多 个 基 分 类 器 进行 组 合 ， 产 生 一 种 形式 的 委员 会 ， 委 
员 会 的 表现 会 比 任何 一 个 基 分 类 器 的 表现 好 得 多 。 这 里 ， 我 们 介绍 提升 方法 的 最 广泛 使 用 的 
一 种 形式 ， 被 称 为 AdaBoost， 是 “可 调节 提升 方法 (adaptive boosting)“ 的 简称 ， 由 Freund and 
Schapire (1996) 提出 。 即 使 基 分 类 器 的 表现 仅仅 比 随 机 猜测 的 表现 稍 好 ， 提 升 方法 仍 可 以 产生 
比较 好 的 结果 。 这 种 基 分 类 器 有 时 被 称 为 弱 学 习 器 (weak learner) 。 提 升 方法 最 初 被 用 来 解决 
分 类 问题 ， 但 是 也 可 以 推广 到 回归 问题 (Friedman, 2001) 。 

提升 方法 和 委员 会 方法 〈 例 如 上 面 讨论 的 打包 方法 ) 的 主要 不 同 在 于 ， 基 分 类 器 是 顺序 训练 
的 ， 每 个 基 分 类 器 使 用 数据 集 的 一 个 加 权 形 式 进 行 训练 ， 其 中 与 每 个 数据 点 相关 联 的 权 系数 依 
赖 于 前 一 个 分 类 器 的 表现 。 特 别 地 ， 被 一 个 基 分 类 器 误 分 类 的 点 在 训练 序列 中 的 下 一 个 分 类 髓 
时 会 被 赋予 更 高 的 权重 。 一 旦 所 有 的 分 类 器 都 训练 完毕 ， 那 么 它们 的 预测 就 会 通过 加 权 投 票 的 
方法 进行 组 合 ， 如 图 14.1 所 示 。 

考虑 一 个 二 分 类 问题 ， 其 中 训练 数据 由 输入 向 量 zl, ,ZN 以 及 对 应 的 二 值 目标 变 
量 六 ,tw 组 成 ， 其 中 如 E {一 1,1}。 每 个 数据 点 被 赋予 了 一 个 关联 的 权 值 参数 w,， 对 于 所 有 
的 数据 点 ， 它 都 被 初始 化 为 方 。 我 们 假设 我 们 有 一 个 使 用 加 权 数 据 训 练 基 分 类 器 的 方法 ， 得 到 
函数 V(z) € {一 1, 1}。 在 算法 的 每 个 阶段 ，AdaBoost 使 用 一 个 数据 集训 练 一 个 新 的 分 类 器 ， 其 中 
权 系 数 根据 前 一 个 训练 的 分 类 器 的 表现 进行 调节 ， 从 而 为 误 分 类 的 数据 点 赋予 更 高 的 权 值 。 最 
后 ， 当 我 们 训练 了 所 需 数量 的 基 分 类 器 之 后 ， 它 们 进行 组 合 ， 形 成 一 个 委员 会 ， 组 合 的 系数 会 
为 不 同 的 基 分 类 器 赋予 不 同 的 权 值 。AdaBoost 算 法 的 精确 形式 叙述 如 下 。 


。 初始 化 数据 加 权 系 数 {ww}， 方 法 是 对 n = 了 N， 令 ui = 二 。 


443 
wwaibbt.com DODDDDDOD 


。 对 于 m ==1,...,M: 


- 使 用 训练 数据 调节 一 个 分 类 器 ym(z)， 调 节 的 目标 是 最 小 化 加 权 的 误差 函数 
N 
= Zn IT(ym(zn) # tn) (14.15) 


其 中 Tym(zn) 夫妇 ) 是 一 个 示 性 函数 ， 当 ym(zn) 闫 tn 时 ， 值 为 1!， 其 他 情况 下 值 为 
0。 





= N ,(m) 

py Dnt ee # tn) (14.10) 
n=1 Wn 
然后 计算 
i {二 全] (14.17) 
Em 
- 更 新 数据 权 系数 

wmtl) 二 wh™) exp{QmT (ym(Tn) # tn)} (14.18) 


。 使 用 最 终 的 模型 进行 预测 ， 形 式 为 
M 
z) = sign $3 on (14.19) 
m=1 


我 们 看 到 第 一 个 基 分 类 器 wi(z) 使 用 全 部 相等 的 加 权 系 数 wh 进行 训练 ， 因 此 它 对 应 于 训练 
2 的 分 类 器 的 通常 的 步骤 。 根 据 (14.18) ,我 们 看 到 在 后 续 的 迭代 过 程 中 ， 权 系数 wM" 对 于 

吴 分 类 的 数据 点 会 增 大 ， 对 于 正确 分 类 的 数据 点 不 改变 。 因 此 后 续 的 分 类 器 就 会 更 关注 那些 被 
前 一 个 分 类 器 错误 分 类 的 数据 点 。em 表 示 每 个 基 分 类 器 在 数据 集 上 的 错误 率 的 加 权 度 量 。 于 是 
我 们 看 到 公式 (14.17) 定义 的 权 系数 am 会 在 计算 整体 输出 (14.19) 时 ， 为 更 准确 的 分 类 器 赋予 
更 高 的 权 值 。 

AdaBoost 算 法 如 图 14.2 所 示 ， 数 据 集 是 图 A.7 所 示 的 分 类 数据 集 的 由 30 个 数据 点 组 成 的 子 集 。 
这 里 ， 每 个 基 分 类 器 由 一 个 输入 变量 的 阔 值 组 成 。 这 个 简单 的 分 类 器 对 应 于 一 种 被 称 为 “决策 树 
桩 ?的 决策 树 形式 ， 即 一 个 具有 单 结 点 的 决策 树 。 因 此 ， 每 个 基 学 习 器 根据 一 个 输入 特征 是 否 超 
过 某 个 国 值 对 输入 进行 分 类 ， 因 此 仅仅 使 用 一 个 与 一 个 坐标 轴 垂 直 的 线性 决策 面 将 空间 划分 为 
两 个 区 域 。 


14.3.1 最 小 化 指数 误差 


提升 方法 最 早起 源 于 统计 学 习 理论 ， 得 到 了 泛 化 误差 的 上 界 。 然 而 ， 这 些 上 界 过 于 宽松 没 
有 实际 的 价值 。 提 升 方法 的 实际 表现 要 远 优 于 上 界 给 出 的 值 。Friedman et al. (2000) 根据 对 一 
个 指数 误差 函数 的 顺序 最 小 化 ， 给 出 了 提升 方法 的 一 个 不 同 的 且 非 常 简单 的 表述 。 

考虑 下 面 定 义 的 指数 误差 函数 


N 
E= 》 exp{-tnfm(zn)} (14.20) 
n=1 
其 中 f(x) 是 一 个 根据 基 分 类 器 yi(z) 的 线性 组 合 定义 的 分 类 器 ， 形 式 为 
= 5 Q(x) (14.21) 
tn E { 一 1 二 是 训练 集 目 标 值 。 我 们 的 目标 是 关于 权 系 数 %% 和 基 分 类 融 W(z) 最 小 化 忆 。 
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图 14.2: 提升 方法 的 说 明 ， 其 中 基 学 习 器 由 作用 于 某 个 轴 的 简单 的 闽 值 组 成 。 每 张 图 给 出 了 目前 训练 的 基 

习 器 的 数量 m， 以 及 最 近 的 基 学 习 器 的 决策 边界 (黑色 虚线 ) 和 组 合 的 决策 边界 (绿色 实 线 ) 。 每 个 
数据 点 用 圆圈 表示 ， 它 的 半径 表示 在 训练 最 近 添 加 的 基 学 习 器 时 数据 点 的 权 值 。 因 此 ， 例 如 ， 我 们 看 到 
被 m = 1 的 学 习 器 误 分 类 的 点 在 训练 m = 2 的 学 习 器 时 被 赋予 了 更 高 的 权 值 。 





然而 ， 我 们 不 进行 误差 函数 的 全 局 最 小 化 ， 而 是 假设 基 分 类 器 矿 (Z),.… ,ym-1(2) 以 及 它们 
的 系数 qi,.…. ,am-1 固 定 ， 因 此 我 们 只 关于 am 和 ym(z) 进 行 最 小 化 。 分 离 出 基 分 类 器 ym(x) 的 页 
献 ， 我 们 可 以 将 误差 函数 写成 


bE 


a 1 
Dep{- —tnfm-_1 (zn) 一 anglen} 


Bs (14.22) 
全 1 
二 >》 wt m) exp 人 到 cnmn 
各 三】 


其 中 ， 系 数 w4" = exp{ 一 刀 fm_1(zn)} 可 以 被 看 做 常数 ， 因 为 我 们 只 针对 am 和 ym(z) 进 行 最 
优化 。 如 果 我 们 将 被 ym(z) 正 确 分 类 的 数据 点 的 集合 记 作 T,， 并 且 将 剩余 的 误 分 类 的 点 记 
作 /Mm， 那 么 我 们 可 以 将 误差 函数 写成 下 面 的 形式 


EB=e ? 》 wv V+re? > wh 


NETm NENMm, 
N 
Du Tym(wn) # tn) te 2 wa 


当 我 们 关于 ym(z) 进 行 最 小 化 时 ， 我 们 看 到 第 二 项 是 常数 ， 因 此 这 等 价 于 对 (14.15) 进行 最 小 
化 ， 因 为 在 求 和 式 前 面 的 整 个 可 乘 性 因子 不 影响 最 小 值 的 位 置 。 类 似 地 ， 关 于 om 最 小 化 ,我 们 
得 到 了 公式 (14.17) ， 其 中 em 由 公式 〈14.16) 定义 。 

根据 公式 (14.22) ， 我 们 看 到 ， 找 到 am 和 ym(z) 之 后 ， 数 据点 的 权 值 使 用 下 面 的 公式 进行 
更 新 


(14.23) 











-ac 人 -和 oonteo] 0 
使 用 下 面 的 事实 
如 gm(zn) 王 1 一 27(m(zn) #tn) (14.25) 
我 们 看 到 在 下 一 次 近代 中 ， 权 值 ww 的 更 新 为 
wtl) 一 wh™) exp (- 取 ) exb{am7(ym(zn) A tn)} (14.20) 
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之 
一 2 一 | 0 1 2 
图 14.3: 指数 误差 函数 (绿色 ) 、 缩 放 的 交叉 业 误 差 函 数 (红色 ) 以 及 支持 向 量 机 使 用 的 匀 链 误差 函数 
( 蓝 色 ) 和 误 分 类 误差 函数 (黑色) 的 图 像 。 注 意 ， 对 于 z = ty(7z) 的 较 大 的 负 值 ， 交 又 炉 误差 函数 给 出 
了 一 个 线性 增长 的 惩罚 ， 而 指数 误差 函数 给 出 了 一 个 指数 增长 的 惩罚 。 


由 于 exp( 一 蔡 ) 与 "无 关 ， 因 此 我 们 看 到 它 对 于 所 有 数据 点 的 权 值 都 贡献 一 个 相同 的 因子 ， 从 而 
可 以 丢弃 。 这 样 我 们 就 得 到 了 公式 〈14.18) 。 

最 后 ， 一 旦 所 有 的 基 分 类 器 被 训练 完毕 ， 新 数据 点 通过 计算 由 〈14.21) 定义 的 组 合 函 数 的 
符号 进行 分 类 。 由 于 因子 3 不 影响 符号 ， 因 此 可 以 省 略 ， 得 到 了 公式 (14.19) 。 


14.3.2 ”提升 方法 的 误差 函数 


AdaBoost 算 法 最 小 化 的 指数 误差 函数 与 之 前 章节 讨论 的 误差 函数 不 同 。 为 了 更 深刻 地 理解 指 
数 误 差 函 数 的 本 质 ， 我 们 首先 考虑 期 望 误差 ， 形 式 为 




















Bot[lexp{—ty(2)}] = > / exp{—ty(z)}p(t | zz)p(Z) dz (14.27) 
C 
如 果 我 们 关于 所 有 可 能 的 函数 y(z) 进 行 变 分 最 小 化 ， 那 么 我 们 有 
~ | | 
y(2)= 51 区 = | (14.28) 


它 是 log odds 函 数 的 一 半 。 因 此 AdaBoost 算 法 是 在 由 基 分 类 吉 的 线性 组 合 表 示 的 函数 空间 中 ， 寻 
找 对 log odds 的 最 好 的 近似 ， 对 应 于 顺序 最 优化 策略 下 的 受 限 最 小 化 。 这 个 结果 说 明了 在 公式 
(14.19) 中 使 用 符号 函数 得 到 最 终 的 分 类 决策 的 原因 。 

我 们 已 经 看 到 ， 二 分 类 问题 的 交叉 灶 误 差 函 数 〈4.90) 的 最 小 函数 y(z) 由 后 验 类 概率 密度 给 
出 。 在 目标 变量 t e {一 1, 1} 的 情形 下 ， 我 们 已 经 看 到 误差 函数 为 In(1 十 exp( 一 yt))。 图 14.3 给 出 了 
它 与 指数 误差 函数 的 对 比 ， 其 中 我 们 将 交 又 炉 误 差 函 数 除 以 了 一 个 常数 因子 In(2)， 从 而 它 穿 过 
点 (0,1)， 使 得 更 加 容易 进行 对 比 。 我 们 看 到 ， 这 两 个 函数 都 可 以 看 成 对 理想 误 分 类 误差 函数 的 
连续 近似 。 指 数 误差 的 一 个 优点 是 它 的 顺序 最 小 化 会 得 到 简单 的 AdaBoost 方 法 。 人 然而， 一 个 缺 
点 是 ， 与 交叉 炉 误 差 函 数 相 比 ， 它 对 负 的 ty(z) 的 惩罚 较 大 。 特 别 地 ， 我 们 看 到 对 于 ty 的 很 大 的 
负 值 ， 交 叉 业 随 着 | 声 | 线 性 增长 ， 而 指数 误差 随 着 | 妃 | 指 数 增长 。 因 此 指数 误差 函数 对 于 异常 点 
和 误 分 类 的 数据 点 并 不 鲁 棒 。 交 叉 粒 差 函 数 和 指数 误差 函数 的 另 一 个 区 别 是 后 者 无 法 表示 为 
任何 具有 良好 定义 的 概率 模型 的 似 然 函数 。 此 外 ， 指 数 误 差 无 法 推广 到 具有 K > 2 个 类 别 的 分 
类 问题 ， 这 再 次 与 概率 模型 的 交叉 精 相 反 ， 它 可 以 很 容易 地 推广 ， 得 到 (4.108) 。 

将 提升 方法 表示 为 指数 误差 下 的 可 加 性 模型 的 最 优化 (Friedman et al., 2000) 引出 了 一 大 类 
与 提升 方法 相似 的 算法 ， 包 括 对 多 类 问题 的 推广 ， 方 法 是 使 用 其 他 的 误差 函数 。 它 也 引出 了 对 
于 回归 问题 的 推广 (Friedman, 2001) 。 如 果 我 们 考虑 回归 问题 的 平方 和 误差 水 数 ， 那 么 形 
如 (14.21) 的 可 加 性 模型 的 顺序 最 小 化 仅仅 涉及 到 将 新 的 分 类 器 根据 前 一 个 模型 的 残留 误 
差 t 一 fi_1(zn) 进 行 调节 。 然 而 ， 正 如 我 们 已 经 注意 到 的 那样 ， 平 方 和 误差 函数 对 于 异常 点 不 
鲁 棒 。 这 个 问题 可 以 通过 将 绝对 偏差 jy 一 如 应 用 到 提升 方法 中 的 方式 得 到 解决 。 图 14.4 给 出 了 这 
两 个 误差 函数 的 对 比 。 
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一 | 0 1 2 


图 14.4: 平方 误差 (绿色) 和 绝对 误差 (红色) 的 对 比 。 图 中 展示 了 后 者 为 较 大 的 误差 赋予 较 低 的 重视 程 
度 ， 从 而 后 者 对 于 异常 点 和 误 分 类 的 点 更 加 鲁 棒 。 


T2 





03 





01 04 1 


图 14.5: 二 维 输入 空间 使 用 与 坐标 轴 平 行 的 边界 被 划分 为 了 五 个 区 域 。 


144 ”基于 树 的 模型 


有 许多 简单 但 广泛 使 用 的 模型 ， 它 们 将 输入 空间 划分 为 超 立 方 体 区 域 ， 超 立方 体 的 边 与 坐标 
轴 对 齐 ， 然 后 为 每 个 区 域 分 配 一 个 简单 的 模型 〈 例 如 ， 一 个 常数 ) 。 这 些 模 型 可 以 被 看 成 一 种 
模型 组 合 方法 ， 其 中 只 有 一 个 模型 对 于 输入 空间 中 任意 给 定点 的 预测 起 作用 。 给 定 一 个 新 的 输 
入 zZ， 选 择 一 个 具体 的 模型 的 过 程 可 以 由 一 个 顺序 决策 的 过 程 描述 ， 这 个 过 程 对 应 于 对 一 个 二 
又 树 (每 个 节点 划分 为 两 个 分 支 的 树 ) 的 遍历 。 这 里 ， 我 们 关注 一 个 特定 的 基于 树 的 框架 ， 被 
称 为 分 类 与 回归 树 (classification and regression tree) ， 或 者 CART (Breiman et al., 1994) ， 虽 
然 还 有 很 多 其 他 的 变 体 ， 例 如 ID3 和 C4.5 (Quinlan, 1986; Quinlan, 1993) 。 

图 14.5 和 图 14.6 给 出 了 对 输入 空间 进行 递归 二 分 的 例子 ， 以 及 对 应 的 树 结构 。 在 这 个 例子 
中 ， 第 一 步 根 据 zl < 0 或 zl > 由 ， 将 输入 空间 划分 为 两 个 区 域 ， 其 中 凡是 一 个 模型 参数 。 
这 创建 了 两 个 子 区 域 ， 每 个 区 域 之 后 可 以 独立 地 进行 划分 。 例 如 ， 区 域 zi < 网 进一步 根 
据 zz < 0 或 zz > 0 进行 进一步 划分 ， 得 到 的 区 域 被 记 作 A 和 B。 递 归 的 过 程 可 以 用 图 14.6 给 出 的 
二 叉 树 的 遍历 进行 描述 。 对 于 任意 新 的 输入 z， 我 们 确定 它 所 属 区 域 的 方法 是 ， 从 树 顶 端的 根 
结 点 开始 ， 根 据 每 个 结 点 的 决策 准则 ， 沿 着 路 径 向 下 走 到 具体 的 叶 结 点 。 注 意 ， 这 种 决策 树 不 
是 概率 图 模型 。 

在 每 个 区 域内 ， 有 一 个 单独 的 模型 预测 目标 变量 的 值 。 例 如 ， 在 回归 问题 中 ， 我 们 简单 地 在 
每 个 区 域内 预测 一 个 常数 ， 或 者 在 分 类 问题 中 ， 我 们 将 每 个 区 域 分 配 为 一 个 具体 的 类 别 。 基 于 
树 的 模型 的 一 个 关键 的 性 质 是 模型 可 以 由 人 类 表述 ， 因 为 模型 对 应 于 作用 在 输入 变量 上 的 一 个 
二 元 决策 序列 。 这 使 得 模型 在 例如 医疗 诊断 领域 很 流行 。 例 如 ， 为 了 预测 一 个 病人 的 疾病 ， 我 
们 可 以 首先 问 病人 的 体温 是 否 大 于 某 个 靖 值 ?“。 如 果 回 答 是 肯定 的 ， 那 么 我 们 可 以 问 病人 的 





血压 是 否 低 于 某 个 阔 值 ?“。 然 后 树 的 每 个 叶 结 点 都 与 一 个 具体 的 诊断 相关 联 。 
为 了 从 一 个 训练 数据 集 里 学 习 到 这 样 的 一 个 模型 ， 我 们 必须 确定 树 的 结构 ， 包 括 在 每 个 结 点 


处 选择 哪个 输入 变量 构成 划分 准则 ， 以 及 用 于 划分 的 阔 值 参数 9; 的 值 。 我 们 也 必须 确定 每 个 区 
域内 的 预测 变量 的 值 。 
首先 考虑 一 个 回归 问题 ， 其 中 我 们 的 目标 是 从 输入 变量 D 维 向 量 z = (z1,.…. ,zp)" 中 预测 单 
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A B C D E 
图 14.6: 对 应 于 图 14.5 的 输入 空间 的 划分 的 二 又 树 。 


一 的 目标 变量 t 的 值 。 训 练 数据 由 输入 向 量 {z1,.…,zN} 以 及 对 应 的 连续 标签 {1,.…. ,tN} 组 成 。 
如 果 输 入 空间 的 划分 给 定 ， 并 且 我 们 最 小 化 平方 和 误差 函数 ， 那 么 在 任意 给 定 区 域 的 预测 变量 
的 最 优 值 就 是 落 在 哪个 区 域 的 数据 点 的 如 值 的 平均 。 

现在 考虑 如 何 确定 决策 树 的 结构 。 即 使 对 于 结 点 数量 固定 的 树 ， 确 定 最 优 结构 (包括 每 次 划 
分 使 用 的 输入 变量 以 及 对 应 的 准 值 ) 来 最 小 化 平方 和 误差 通 数 的 问题 通常 在 计算 上 是 不 可 行 
的 ， 因 为 可 能 的 组 合 数量 相当 大 。 相 反 ， 我 们 通常 使 用 贪心 的 最 优化 。 从 对 应 于 整个 输入 空间 
的 一 个 单独 的 根 结 点 开始 ， 然 后 通过 每 次 添加 一 个 结 点 的 方式 构建 树 。 在 每 一 步 ， 输 入 空间 中 
会 有 若干 个 可 以 切 分 的 候选 的 区 域 ， 对 应 于 向 当前 的 树 中 添加 一 对 叶 结 点 。 对 于 每 个 这 种 候选 
区 域 ， 我 们 要 选择 使 用 忆 个 输入 变量 中 的 哪 一 个 进行 划分 ， 以 及 装 值 的 大 小 。 划 分 区 域 的 选择 
以 及 输入 变量 和 辣 值 的 选择 可 以 通过 彻底 搜索 的 方式 高 效 地 进行 联合 最 优化 。 我 们 注意 到 ， 对 
于 给 定 的 划分 变量 和 立 值 的 选择 ， 预 测 变量 的 最 优选 择 是 数据 的 局 部 平均 值 ， 如 前 所 述 。 对 划 
分 变量 的 所 有 可 能 选择 重复 上 述 步 又 ， 得 到 最 小 的 平方 和 误差 的 一 个 划分 变量 被 保留 下 来 。 

得 到 构建 树 的 贪心 策略 之 后 ， 剩 下 的 问题 是 如 何 停止 添加 结 点 。 一 个 简单 的 方法 是 当 残 留 误 
差 的 减 小 量 低 于 某 个 国 值 时 停止 。 然 而 ， 我 们 通过 实验 发 现 ， 经 常 出 现 这 样 的 情形 : 没有 划分 
方式 会 使 误差 函数 产生 显著 的 减 小 ， 但 是 再 进行 几 次 划分 之 后 ， 就 会 找到 一 个 使 误差 函数 显著 
减 小 的 划分 方式 。 因 此 ， 在 实际 应 用 中 通常 构建 一 个 较 大 的 树 ， 使 用 基于 与 叶 结 点 关联 的 数据 
点 数量 的 停止 准则 ， 然 后 进行 剪 枝 ， 生 成 最 终 的 树 。 剪 枝 的 过 程 基于 的 准则 会 在 残留 误差 与 模 
型 复杂 度 之 间 进行 平衡 。 我 们 将 剪 校 开始 时 的 树 记 作 To， 然 后 我 们 对 于 TC T0， 如 果 它 能 够 通 
过 从 To 剪 枝 即 通过 合并 对 应 区 域 来 收缩 内 部 结 点 ) 的 方式 被 得 到 ， 那 么 它 就 被 定义 为 2 的 一 


个 子 树 。 假 设 叶 结 点 的 索引 为 7 = 1,.….,|T|， 叶 结 点 7 表示 具有 入 i 个 数据 点 的 区 域 RR-，| 了 | 表示 
叶 结 点 的 总 数 。 那 么 区 域 及 ;给 出 的 最 优 的 预测 为 
1 
We (14.29) 
TnERT 


它 对 于 残留 的 平方 和 误差 的 贡献 为 


Q(T)= 9 {hh =} (14.30) 
TnERT 
从 而 剪 枝 准则 为 
CO 人 =>》Q@r(T)+ATI| (14.31) 
未 夺 寺 
正则 化 参数 和 确定 了 整体 的 残留 平方 和 误差 与 模型 复杂 度 之 间 的 折 中 ， 模 型 复杂 度 用 叶 结 点 的 数 


量 | 了 | 表示 ， 它 的 值 通 过 交叉 验证 的 方式 确定 。 

对 于 分 类 问题 ， 树 的 构建 和 剪 术 的 过 程 很 类 侯 ， 区 别 在 于 平方 和 误差 函数 被 蔡 换 为 一 个 
更 合适 的 性 能 的 度量 。 如 果 我 们 将 pz 定义 为 区 域 RR 中 被 分 配 到 类 别 k 的 数据 点 的 比例 ， 其 
中 二 1,..., 玉 ， 那 么 经 常 使 用 的 两 个 度量 是 交叉 炳 


K 
QT) == > pn (14.32) 
KE 
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以 及 基尼 系数 Gini index 
K 
Q(T) = 》 prk(1 — pry) (14.33) 
p=1 


如 果 对 于 任意 的 上 = 1,...,K 都 有 px = 1， 那 么 这 两 个 量 都 等 于 零 ， 此 时 对 于 所 有 j 关 k 都 
有 pr; = 0。 如 果 对 于 所 有 的 k = 1,..., 玉 都 有 pi = 支 ， 那 么 这 两 个 量 都 会 达到 最 大 值 。 这 两 个 
量 倾 向 于 让 区 域 中 属于 同一 个 类 别 的 数据 点 的 比例 较 高 。 在 构建 树 的 过 程 中 ， 与 分 类 错误 率 相 
比 ， 交 叉 焙 和 基尼 系数 是 一 个 更 好 的 度量 ， 因 为 这 两 个 量 对 于 结 点 的 概率 更 敏感 。 并 且 ， 与 分 
类 错误 率 不 同 ， 它 们 是 可 微 的 ， 因 此 更 适合 基于 梯度 的 最 优化 方法 。 对 于 接 下 来 对 树 的 剪 枝 过 
程 ， 通 常 使 用 分 类 错误 率 。 

像 CART 这 种 树 模 型 的 可 以 由 人 类 进行 表述 这 一 性 质 通常 被 视 为 它 的 一 个 重要 的 优点 。 然 
而 ， 在 实际 应 用 中 ， 学 习 到 的 特定 的 树 结构 对 于 数据 集 的 细节 非常 敏感 ， 从 而 训练 集 的 一 个 微 
小 的 改变 就 会 产生 一 个 相当 不 同 的 划分 集合 (Hastie et al., 2001) 。 

本 节 讨 论 的 这 种 基于 树 的 方法 有 一 些 其 他 的 问题 。 一 个 问题 是 ， 划 分 边界 是 与 特征 空间 的 坐 
标 轴 对 齐 的 ， 这 相当 不 好 。 例 如 ， 为 了 将 最 优 边 界 与 坐标 轴 成 45 度 角 的 两 个 类 别 划 分 开 ， 我 们 
需要 相当 多 的 与 坐标 轴 平 行 的 划分 ， 这 个 数量 要 远大 于 一 个 单一 的 不 与 坐标 轴 平 行 的 划分 的 数 
量 。 此 外 ， 决 策 树 中 的 划分 是 硬 划 分 ， 从 而 输入 空间 中 的 每 个 区 域 与 一 个 叶 结 点 模型 关联 ， 并 
且 只 与 一 个 叶 结 点 模型 关联 。 最 后 一 个 问题 在 解决 回归 问题 时 相当 严重 ， 其 中 我 们 通常 的 目标 
是 对 光滑 的 函数 建 模 ， 但 是 树 模 型 生成 了 分 段 常数 的 预测 ， 划 分 的 边界 是 不 连续 的 。 





14.5 条 件 混合 模型 


我 们 已 经 看 到 ， 标 准 的 决策 树 被 限制 为 对 输入 空间 的 硬 的 、 与 坐标 轴 对 齐 的 划分 。 这 些 限 制 
可 以 通过 引入 软 的 、 概 率 形式 的 划分 的 方式 得 到 缓解 ， 这 些 划 分 是 所 有 输入 变量 的 函数 ， 而 不 
仅仅 是 某 个 输入 变量 的 函数 。 这 样 做 的 代价 是 它 的 直观 意义 的 消失 。 如 果 我 们 也 给 叶 结 点 的 模 
型 赋予 一 个 概率 的 形式 ， 那 么 我 们 就 得 到 了 一 个 纯粹 的 概率 形式 的 基于 树 的 模型 ， 被 称 为 专家 
层次 混合 (hierarchical mixture of experts) ， 将 在 14.5.3 节 讨论 。 

另 一 种 得 到 专家 层次 混合 模型 的 方法 是 从 标准 的 非 条 件 密 度 模型 〈 例 如 高 斯 分 布 ) 的 概率 混 
合 开 始 ， 将 分 量 概率 密度 替换 为 条 件 概率 分 布 。 这 里 ， 我 们 考虑 线性 回归 模型 的 混合 (14.5.1 
节 ) 以 及 logistic 回 归 模 型 的 混合 (14.5.2 节 ) 。 在 最 简单 的 情况 下 ， 混 合 系数 与 输入 变量 无 关 。 
如 果 我 们 进行 进一步 的 泛 化 ， 使 得 混合 系数 同样 依赖 于 输入 ， 那 么 我 们 就 得 到 了 专家 混合 
(mixture of experts) 模型 。 最 后 ， 如 果 我 们 使 得 混合 模型 的 每 个 分 量 本 身 都 是 一 个 专家 混合 模 
型 ， 那 么 我 们 就 得 到 了 专家 层次 混合 模型 。 


14.5.1 ”线性 回归 模型 的 混合 


用 概率 形式 表示 线性 回归 模型 的 众多 优点 之 一 是 它 可 以 用 作 更 复杂 的 概率 模型 的 一 个 分 量 。 
例如 ， 将 表示 线性 回归 模型 的 条 件 概率 分 布 看 成 有 向 概率 图 中 的 一 个 结 点 ， 即 可 完成 这 件 事 。 
这 里 ， 我 们 考虑 一 个 简单 的 例子 ， 对 应 于 线性 回归 模型 的 混合 ， 它 是 9.2 节 讨论 的 高 斯 混合 模型 
的 一 个 直接 推广 ， 推 广 到 了 条 件 高 斯 分 布 的 情形 。 

因此 ， 我 们 考虑 KK 个 线性 回归 模型 ， 每 个 模型 都 由 自己 的 权 参 数 wx 控 制 。 在 许多 应 用 中 ， 
比较 合适 的 做 法 是 对 所 有 上 个 分 量 使 用 一 个 共同 的 噪声 方差 ， 由 精度 参数 6 控制， 这 正 是 我 们 这 
里 讨论 的 情形 。 我 们 再 次 将 注意 力 集中 于 单一 目标 变量 t+， 但 是 推广 到 多 个 输出 是 很 容易 的 。 如 
果 我 们 将 混合 系数 记 作 rx ， 那 么 混合 概率 分 布 可 以 写成 





Kk 
p(t10)= > nN(t | whip,p !) (14.34) 
k=1 
其 中 6 表示 模型 中 所 有 可 调节 参数 的 集合 ， 即 W = {wk} ,7 = {7A} 以 及 8。 给 定 一 组 观测 数据 
集 {9,,t}， 这 个 模型 的 对 数 似 然 函 数 的 形式 为 


N K 
Inp(t | 0) = jn > RpN (tn | of (14.35) 
n=1 KE 人工 
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图 14.7: 表示 由 公式 〈14.35) 定义 的 线性 回归 模型 的 混合 模型 的 概率 有 向 图 。 


其 中 t = (全 ,tw 并 表示 目标 变量 组 成 的 向 量 。 

为 了 最 大 化 这 个 似 然 函数 ， 我 们 可 以 再 次 使 用 EM 算法 。 可 以 证 明 它 是 9.2 节 讨论 的 无 条 件 高 
斯 混合 模型 的 EM 算法 的 一 个 简单 推广 。 于 是 我 们 可 以 基于 我 们 对 无 条 件 混合 分 布 的 经 验 构 
造 模型 ， 引 入 一 组 二 值 潜 在 变量 Z = {zn}， 其 中 zn E {0,1}， 其 中 对 于 每 个 数据 点 %， 所 有 
的 上 = 1,..., 玉 中 只 有 一 个 元 素 为 1， 其 余 元 素 都 等 于 0。 等 于 1 的 元 素 表 示 哪 个 混合 分 布 用 于 生 
成 数据 点 。 潜 在 变量 与 观测 变量 的 联合 概率 分 布 可 以 用 图 14.7 的 图 模型 表示 。 

这 样 ， 完 整数 据 的 对 数 似 然 函数 的 形式 为 





N 天 
Inp(t, 210) = > 》 znpln{ngpN (tn | wh p61)} (14.30) 


n=1 k=1 


EM 算法 在 开始 时 ， 首 先 选 择 模 型 参数 的 初始 值 9 晶 。 在 E 步 骤 中 ， 这 些 参 数 用 于 计算 每 个 数据 
点 n 的 每 个 分 量 k 的 后 验 概率 分 布 或 者 "责任 "， 结 果 为 

TV (tn, | wi $b- 1) 
b> TyN (tn | wi bn, B-1) 


然后 ,“ 责 任 ” 被 用 于 确定 完整 数据 对 数 似 然 函数 关于 后 验 概率 分 布 p(2 | t, 5) 的 期 望 ， 形 式 为 











yng = Elzng] = p(k | Bn, 0F) = (14.37) 

















N KK 
Q(0, oN) Ezllnp(t, Z | 0)] 二 {In Tk 十 lIn WN (tn, | wh pn BB- 1)} 
nl R=1 
在 M 步 又 中 ， 我 们 关于 9 最 大 化 函数 Q(9, 9 日)， 保 持 Yywx 不 变 。 对 于 关于 混合 系数 的 最 优化 ， 
我 们 需要 考虑 限制 条 件 沁 ,mx = 1， 这 使 用 拉 格 朗 日 乘 数 法 即 可 完成 ， 得 到 了 7 的 M 步 又 重 估计 
方程 ， 形 式 为 





] N 
1 2 Ynk (14.38) 


注意 ， 这 个 函数 形式 与 公式 (9.22) 给 出 的 无 条 件 的 简单 高 斯 混合 的 对 应 结果 形式 相同 。 
接 下 来 ， 考 虑 关于 第 k 个 线性 回归 模型 的 参数 向 量 wi 的 最 大 化 。 代 入 高 斯 分 布 的 表达 式 ， 我 
们 看 到 Q(0, 9 日) 关于 参数 向 量 wx 的 函数 形式 为 


N 
Q(0, ol) 2 Ynk {-St 2 wre) | 常数 (14.39) 
n=1 


其 中 常数 项 包含 来 自 j 取 的 其 他 权 向 量 w; 的 贡献 。 注 意 ， 我们 最 大 化 的 量 类 似 于 单一 线性 回归 
模型 的 标准 平方 和 误差 函数 (3.12) 的 负 对 数 ， 但 是 包含 了 责任 项 yws。 这 代表 了 加 权 最 小 平方 
(weighted least squares) 问题 ， 其 中 对 应 于 第 n 个 数据 点 的 项 带 有 一 个 加 权 系 数 6yw:， 它 可 以 
被 看 成 每 个 数据 点 的 有 效 精度 。 我 们 看 到 ， 混 合 模 型 中 的 每 个 分 量 线性 回归 模型 由 自身 的 参数 
向 量 wx 控 制 ， 在 M 步 又 中 使 用 整个 数据 集 分 别 进行 调节 ， 但 是 每 个 数据 点 nn 由 责任 项 yw 加 权 ， 
它 表示 模型 对 这 个 数据 点 的 作用 。 令 (14.39) 关于 wx 的 导数 等 于 零 ， 可 得 





N 
0= 》 yr (tn — wh pn) bp, (14.40) 
及 三 1 
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图 14.8: 人 工 生成 的 数据 的 例子 ， 用 绿色 点 表示 ， 具 有 一 个 输入 变量 z 和 一 个 输出 变量 :。 同 时 画 出 了 两 个 
线性 回归 模型 的 混合 ， 它 的 均值 函数 yz, wx) 用 蓝 线 和 红线 表示 ， 其 中 k € {1,2}。 上 方 三 张 图 表示 初始 
配置 〈 左 图 ) 、 和 运行 了 30 轮 EM 人 迷 代 的 结果 (中 图 ) 以 及 运行 了 50 轮 EM 和 迭代 的 结果 〈 右 图 ) 。 这 里 ，6 被 
初始 化 为 目标 值 集合 的 真实 方差 的 倒数 。 下 方 三 张 图 将 每 个 数据 点 的 对 应 的 责任 项 用 紧 直 线 表示 ， 其 中 
蓝 色 线段 的 长 度 表示 那个 数据 点 的 蓝 色 线 的 后 验 概率 〈 红 色 线 段 的 含义 与 之 类 似 ) 。 





它 可 以 用 矩阵 的 记号 表示 为 


0= BT R(t — Bow) (14.41) 
其 中 Ri = diag(Ynx) 是 一 个 N x N 的 对 角 和 矩阵 。 解 出 wj， 我 们 有 
wi = (BT RB) ET Rt (14.42) 


它 表 示 一 组 修改 过 的 规范 方程 ， 对 应 于 加 权 的 最 小 平方 问题 ， 与 logistic 回 归 问 题 中 得 到 的 结果 
(4.99) 具有 相同 的 形式 。 注 意 ， 在 每 个 E 步 又 之 后 ， 和 矩阵 RR 会 发 生变 化 ， 因 此 我 们 在 后 续 
的 M 步 又 中 必须 重新 解 规 范 方程 。 

最 后 ， 我 们 关于 6 最 大 化 89(0, 9 日 )。 只 保留 依赖 于 8 的 项 ， 函 数 Q(0, 9 日 ) 可 以 写成 








NK 
Q(0,05) = D> Dm { 31n8 Bt, ge (14.43) 


2 
n=1 k=1 


令 它 关于 B 的 导数 等 于 零 ， 整 理 ， 我 们 得 到 了 6 的 M 步 骤 方 程 ， 形 式 为 


1 ] NK 
2 > >》 vmxltn — wh pn,)? (14.44) 


n=1 k=1 


在 图 14.8 中 ,我们 使 用 了 一 个 简单 的 例子 来 说 明 这 个 EM 算法 。 这 个 例子 中 ， 我 们 根据 数据 
集 来 调整 由 两 条 直线 组 成 的 混合 模型 ， 数 据 集 有 一 个 输入 变量 z 和 一 个 目标 变量 {。 预 测 密度 
(14.34) 如 图 14.9 所 示 ， 使 用 了 从 EM 算法 中 得 到 的 收敛 的 参数 值 ， 对 应 于 图 14.8 的 右 图 。 图 中 
同时 给 出 的 是 拟 合 单一 的 线性 回归 模型 的 结果 ， 它 给 出 了 一 个 单 峰 的 预测 密度 。 我 们 看 到 ， 混 
合 模型 可 以 更 好 地 表示 数据 分 布 ， 这 一 点 通过 更 高 的 似 然 函数 值 反 映 出 来 。 然 而 ,混合 模型 也 
将 相当 大 的 概率 质量 分 配 到 了 没有 数据 的 区 域 ， 因 为 它 的 预测 分 布 对 于 z 的 所 有 值 来 说 是 双 峰 
的 。 这 个 问题 可 以 这 样 解决 : 将 模型 扩展 ， 使 得 混合 系数 本 身 是 z 的 一 个 函数 ， 这 就 产生 了 5.6 
节 讨 论 的 混合 密度 网 络 模 型 ， 以 及 14.5.3 节 讨论 的 专家 层次 混合 模型 。 
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图 14.9: 左 图 表示 对 应 于 图 14.8 的 收敛 解 的 预测 条 件 概率 密度 。 对 数 似 然 函数 的 值 为 -3.0。 在 特定 的 z 处 ， 
穿 过 图 像 的 垂直 切片 表示 条 件 概率 分 布 pt | z)， 可 以 看 到 它 是 双 峰 的 。 右 图 给 出 了 使 用 最 大 似 然 方法 用 
同样 的 数据 集 拟 合 的 单一 线性 回归 模型 。 模 型 的 对 数 似 然 函 数值 较 小 ， 为 -27.6。 


14.6 ”logistic 模 型 的 混合 


由 于 线性 回归 模型 定义 了 给 定 输入 变量 的 条 件 下 目标 变量 的 一 个 条 件 概 率 分 布 ， 因此 很 容易 
将 其 用 作 混 合 模型 中 的 分 量 分 布 ， 从 而 与 单一 的 logistic 回 归 模 型 相 比 ， 可 以 表示 更 丰富 的 一 
条 件 概率 分 布 。 这 个 例子 涉及 到 对 本 书 前 面 章节 讨论 的 思想 的 一 个 直接 组 合 ， 
巩固 这 些 知识 。 

对 于 开 个 logistic 回 归 模 型 来 说 ， 目 标 变量 的 条 件 概率 分 布 为 


p(t | 9,0) -Dr yr] (14.45) 


其 中 9 是 特征 向 量 ，yi = o(wX9$) 是 分 量 k 的 输出 ，0 表 示 可 调节 参数 ， 即 {mt} 和 {wk}。 
现在 假设 我 们 有 一 个 数据 集 {8;,tn}。 从 而 对 应 的 似 然 函 数 为 


N K 
z(t10)= |]| (> TY [1 — oo (14.46) 
n=1 


k=1 


其 中 yx = al go) t= ( 刀 1,.….,tN)?。 我 们 可 以 使 用 EM 算法 从 代 地 最 大 化 这 个 似 然 函 数 。 这 
涉及 到 引入 潜在 变量 zj， 它 对 应 于 每 个 数据 点 n 的 用 1-of-.K 方 式 编码 的 二 值 指示 器 变量 。 完 整 
数据 的 似 然 函数 为 
p(t,Z |0) -可 ul {rays [1 — Yn] (14.47) 
n=1 k=1 
其 中 GZ 是 潜在 变量 矩阵 ， 元 素 为 zk。 我 们 通过 选择 模型 参数 的 一 个 初始 值 昌 来 初始 化 EM 算 
法 。 之 后 在 E 步 又 中 ， 我 们 使 用 这 些 参数 值 来 计算 每 个 数据 点 ?的 分 量 & 的 后 验 概率 ， 形 式 为 


1—tn 





TO 人 [一 yng)] 


























mk = Elzng] = p(k | 四 ,6 昌 ) = 14.48 
Ynk = Elznkg] = p(k| 9 ) yl mJ (14.48) 
些 责任 项 然后 用 于 寻找 完整 数据 对 数 似 然 函 数 的 期 望 ， 它 作为 的 一 个 函数 ， 形 式 为 

Q(6,6) = Ezllnp(t, Z | 0)] 

N EK (14.49) 

> > Yng{ln Tk 十 tn ln Ynk 十 (1 tn) In(1 ynk)} 

n=1 k=1 
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图 14.10: logistic 回 归 模 型 的 混合 的 例子 。 左 图 给 出 了 从 两 个 类 别 中 抽取 的 数据 点 ， 两 个 类 别 分 别 用 红色 
和 蓝 色 表 示 ， 其 中 背景 颜色 (从 纯 红 变 化 到 纯 蓝 ) 表示 模型 标签 的 真实 概率 。 中 图 表示 使 用 最 大 似 然 方 
法 拟 合 单一 的 logistic 回 归 模 型 的 结果 ， 其 中 背景 颜色 表示 类 别 标签 的 对 应 的 概率 。 由 于 颜色 几乎 是 均匀 
的 紫色 ， 因 此 我 们 看 到 模型 在 输入 空间 中 的 大 部 分 区 域 都 会 分 配 一 个 近似 为 0.5 的 概率 。 右 图 给 出 了 使 用 
a 它 对 于 蓝 色 类 别 中 的 许多 点 ， 都 会 给 正确 的 标签 赋予 
高 得 多 的 概率 。 


M 步 骤 涉 及 到 关于 6 最 大 化 这 个 函数 ， 保 持 多 不 变 ， 从 而 ?mk 保持 不 变 。 关 于 mx 的 最 大 化 可 以 使 
用 通常 的 方式 进行 ， 引 入 拉 格 朗 日 乘 数 来 强制 满足 ?mk = 1 的 限制 ， 得 到 下 面 的 熟悉 的 结果 


1 N 
本 一 下 = Ynk (14.50) 
Vf 


为 了 确定 {wk}， 我 们 注意 到 Q(0,9 昌 ) 由 一 组 下 标 为 k 项 的 求 和 式 组 成 ， 它 只 依赖 于 向 
量 wi 中 的 一 个 ， 因 此 不 同 的 向 量 在 EM 算法 的 M 步 又 中 可 以 独立 进行 优化 。 换 句 话说 ， 不 同 的 
分 量 只 通过 责任 项 产生 相互 作用 ， 它 在 M 步 又 中 是 固定 的 。 注 意 ，M 步 骤 没 有 封闭 解 ， 必 须 使 
用 例如 迭代 重 加 权 最 小 平方 〈IRLS) 算法 迭代 地 求解 。 对 于 向 量 x 的 梯度 和 Hessian 矩 阵 为 











N 
VEQ = 》 Ynp (tn — yng) bn (14.51) 
n=1 
N 
Hi = —VpVkQ = 》 Ynpyng(l — Ynk) pnp (14.52) 
n=1 


其 中 Vx 表示 关于 wx 的 梯度 。 对 于 固定 的 Yr， 梯度 和 Hessian 矩 阵 独 立 于 7 关上 的 {wj;}， 因 此 我 
们 可 以 使 用 IRLS 算 法 分 别 对 每 个 wx 求解 。 因 此 分 量 # 的 M 步 又 方程 仅仅 对 应 于 使 用 数据 集 调整 
一 个 单独 的 logistic 回 归 模型 ， 其 中 数据 点 "携带 权 值 yz。 图 14.10 给 出 了 logistic 回 归 模 型 的 混合 
ee 将 这 个 模型 推广 为 softmax 模 型 的 混合 模型 来 处 理 多 类 问 
题 是 很 容易 的 。 


14.6.1 专家 混合 


在 14.5.1 节 ， 我 们 考虑 了 线性 回归 模型 的 混合 ， 在 14.5.2 节 ， 我 们 讨论 了 线性 分 类 器 的 类 似 的 
混合 。 虽 然 这 些 简 单 的 混合 扩展 了 线性 模型 的 灵活 程度 ， 包 含 了 更 复杂 的 〈 例 如 多 峰 的 ) 预测 
分 布 ， 但 是 它们 仍然 具有 很 大 的 局 限 性 。 我 们 可 以 进一步 增强 这 些 模 型 的 能 力 ， 方 法 是 使 得 混 
合 系数 本 身 是 输入 变量 的 函数 ， 即 


K 
p(t| z) = >》 nr(z)pr(t | 2) (14.53) 
k=1 


这 被 称 为 专家 混合 (mixture of experts) 模型 (Jacobs et al., 1991) ， 其 中 混合 系数 7 (Zz) 被 称 为 
门 函数 (gating function) ， 各 个 分 量 密度 px(t | zx) 被 称 为 专家 (expert) 。 属 于 背后 的 思想 是 ， 
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不 同 的 分 量 可 以 对 输入 空间 的 不 同 区 域 的 概率 分 布 进行 建 模 (它们 是 在 它们 自己 的 区 域 做 预测 
的 “专家 ”) ， 门 函数 确定 哪个 分 量 控制 哪个 区 域 。 

门 函数 六 (zz) 必 须 满足 混合 系数 通常 的 限制 ， 即 0 < Amk(z) < 1 以 及 > T(z) = 1。 因 此 它们 
可 以 通过 例如 线性 softmax 函 数 (4.104) 和 (4.105) 表示 。 如 果 专 家 也 是 线性 (回归 或 分 类 ) 
模型 ， 那 么 整个 模型 可 以 使 用 EM 算法 高 效 地 调节 ， 在 M 步 骤 中 要 使 用 迭代 重 加 权 最 小 平方 
(Jordan and Jacobs, 1994) 。 

由 于 门 函数 和 专家 函数 使 用 了 线性 模型 ， 因 此 这 样 的 模型 仍然 有 很 大 的 局 限 性 。 一 个 更 加 
灵活 的 模型 时 使 用 多 层 门 函数 ， 得 到 了 专家 层次 混合 (hierarchical mixture of experts) 模型 或 
者 HME 模 型 (Jordan and Jacobs, 1994) 。 为 了 理解 这 个 模型 的 结构 ， 假 设 一 个 混合 分 布 ， 它 的 
每 个 分 量 本 身 都 是 一 个 混合 分 布 。 对 于 无 条 件 的 混合 分 布 ， 层 次 混合 简单 地 等 价 于 一 个 普通 的 
混合 分 布 。 然 而 ， 当 混合 系数 与 输入 相关 时 ， 层 次 模型 就 变 得 不 普通 了 。HME 模 型 也 可 以 被 看 
成 14.4 节 讨论 的 决策 树 的 概率 版 本 ， 并 且 与 之 前 一 样 可 以 通过 最 大 似 然 的 方式 使 用 EM 算法 以 
及 M 步 又 中 的 IRLS 算 法 高 效 计算 。Bishop and Svensén (2003) 基于 变 分 推断 提出 了 HME 的 一 个 
贝 叶 斯 方法 。 

我 们 这 里 不 会 详细 讨论 HME。 然 而 ， 值 得 指出 的 一 点 是 ， 它 与 5.6 节 讨论 的 混合 密度 网 络 
(mixture density network) 有 着 密切 的 联系 。 专 家 混合 的 主要 的 优点 在 于 它 可 以 通过 EM 算法 最 
优化 ， 其 中 每 个 混合 分 量 以 及 门 函数 的 M 步 又 涉及 到 一 个 凸 优化 〈 虽 然 整 体 的 最 优化 不 是 凸 优 
化 ) 。 相 反 ， 混 合 密度 网 络 方法 的 一 个 优势 是 分 量 密度 和 混合 系数 共享 神经 网 络 的 隐 含 单元 。 
此 外 ， 与 专家 层次 混合 相 比 ， 在 混合 密度 网 络 中 ， 对 输入 空间 的 划分 更 加 放松 ， 因 为 划分 不 仅 
是 软 划分 ， 并 且 不 限于 与 坐标 轴 平 行 ， 而 且 还 可 以 是 非 线性 的 。 





14.7 ”练习 


(14.1) 考虑 一 组 形式 为 p(t | x, zh, 9, 中) 的 模型 ， 其 中 z 是 输入 向 量 ，t 是 目标 向 量 ，h 表 示 
不 同 模型 的 索引 ，zn 是 模型 h 的 潜在 变量 ，0h 是 模型 h 的 参数 向 量 。 假 设 模型 的 先 验 概率 分 布 
为 p(h)， 我 们 给 定 了 一 个 训练 数据 集 关 = {x1,…. ,ZYN} 和 工 == { 妇 ,.…,tN}。 写 出 需要 计算 预测 
分 布 p(t | x, 兰 , 工 ) 所 需 的 公式 ， 其 中 潜在 变量 和 模型 索引 都 被 边缘 化 出 去 。 使 用 这 些 公式 ， 说 
明 不 同 模型 的 贝 叶 斯 平均 和 单一 模型 中 使 用 潜在 变量 的 不 同 。 

(14.2) (*) 一 个 简单 的 委员 会 模型 的 平方 和 误差 函数 的 期 望 E4yv 可 以 由 公式 〈14.10) 
定义 ， 委 员 会 本 身 的 期 望 误差 由 公式 (14.11) 定义 。 假 设 各 自 的 误差 满足 公式 (14.12) 和 
(14.13) ,推导 公式 (14.14) 给 出 的 结果 。 

(143) (*) 通过 使 用 Jensen 不 等 式 (1.115) ， 对 于 凸 函数 f(z) = 22 这 一 具体 情形 ， 证 
明 ， 公式 〈14.10) 给 出 的 一 个 简单 的 委员 会 模型 的 平方 和 误差 函数 的 期 望 的 平均 值 Bav， 以 及 
公式 (14.11) 给 出 的 委员 会 本 身 的 期 望 误差 Ecom ， 满 足 


Ecom < Eav (14.54) 


(14.4) (GY*) 通过 使 用 Jensen 不 等 式 (1.115) ， 证 明 上 一 个 练习 中 推导 的 结果 对 于 任意 的 
误差 函数 (yy) 都 成 立 ， 而 不 仪 仅 是 平方 和 误差 函数 ， 假 设 y 是 一 个 凸 函数 。 
(14.5) (**) 考虑 一 个 委员 会 模型 ， 其 中 我 们 允许 各 个 分 量 模型 具有 不 同 的 权 值 ， 即 

















M 
ycoM(z) = Qmym(ZT) (14.55) 
m=1 





为 了 确保 预测 ycom (x) 保持 在 合理 的 范围 中 ,假设 我 们 要 求 在 每 个 x 值 处 ， 预 测 被 限制 在 委员 
会 的 任意 成 员 给 出 的 最 小 值 和 最 大 值 之 间 ， 即 


yamin(Z) < YCOM(T) < ymax(Z) (14.50) 
证 明 ， 这 个 限制 的 一 个 充分 必要 条 件 是 系数 am 满足 
M 
ao > 0, 2 (14.57) 
m=1 
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(146) (*) 通过 对 误差 函数 (14.23) 关于 am 求 微分 ， 证 明 AdaBoost 算 法 中 的 参数 am 使 用 
公式 〈14.17) 进行 更 新 ， 其 中 em 由 公式 (14.16) 定义 。 

(147) (5) 通过 对 (14.27) 给 出 的 期 望 指 数 误差 水 数 关 于 所 有 可 能 的 函数 y(z) 进 行 变 分 
最 小 化 ， 证 明 最 小 的 函数 由 公式 (14.28) 给 出 。 

(14.8) (*) 证 明 ， 通 过 AdaBoost 算 法 最 小 化 的 指数 误差 函数 (14.20) 不 对 应 于 任何 具有 
| 
这 件 事 。 


(149) (*) 证 明 对 于 形 如 〈14.21) 的 可 加 性 模型 的 平方 和 误差 函数 用 提升 方法 进行 顺序 
仅仅 涉及 到 从 前 一 个 模型 中 根据 残留 误差 如 一 fm_1(xn)， 调 节 每 个 新 的 基 分 类 器 。 

(44.10) 《9 验证 ， 如 果 我 们 最 小 化 训练 数据 集 {t%} 与 单一 的 预测 值 之 间 的 平方 和 误差 ， 
那么 的 最 优 解 由 { 如 } 的 均值 给 出 。 

(4.11) (G*) 考虑 一 个 由 类 别 C1 的 400 个 数据 点 和 类 别 C2 的 400 个 数据 点 组 成 的 数据 集 。 假 
设 一 个 树 模 型 4 在 第 一 个 叶 结 点 (预测 C1) 将 数据 集 划 分 为 (300,100)， 在 第 二 个 叶 结 点 ( 预 
测 C?) 将 数据 集 划 分 为 (100, 300)， 其 中 (n,m) 表 示 n 个 数据 点 被 分 类 为 C1，m 个 数据 点 被 分 类 
为 Ca。 类似 地 ， 假 设 第 二 个 树 模 型 B 将 他 们 划分 为 (200, 400) 和 (200,0)。 计 算 两 棵 树 的 分 类 错 
误 率 ， 从 而 证 明 它 们 是 相等 的 。 类 似 地 ， 计 算 两 棵 树 在 交叉 炉 (14.32) 的 情形 和 基尼 系数 
(14.33) 的 情形 下 的 剪 校 准则 (14.31) ， 证 明 树 召 的 这 两 个 量 都 小 于 树 4。 

(14.12) ”GC%) 将 14.5.1 节 的 线性 回归 模型 混合 的 结果 推广 到 多 个 目标 变量 值 (由 向 量 t 表 
示 ) 的 情形 。 为 了 完成 这 一 点 ， 使 用 3.1.5 节 的 结果 。 

(14.13) (*) 验证 线性 回归 模型 的 混合 模型 的 完整 数据 似 然 函数 为 (14.36) 。 

(14.14) (*) 使 用 拉 格 朗 日 乘 数 法 (附录 E) 证 明 ， 使 用 最 大 似 然 EM 训 练 的 线性 回归 模型 
的 混合 模型 的 混合 系数 的 M 步 骤 重 估计 方程 为 〈14.38) 。 

(1415) (*) 我 们 已 经 注意 到 ， 如 果 我 们 在 回归 问题 中 使 用 平方 损失 函数 ， 那 么 对 于 一 个 
新 的 输入 向 量 ， 对 应 目标 变量 的 最 优 预测 是 预测 分 布 的 条 件 均 值 。 证 明 ，14.5.1 节 讨论 的 线性 回 
归 模 型 的 混合 模型 的 条 件 均值 为 每 个 分 量 分 布 的 条 件 均值 的 线性 组 合 。 注 意 ， 如 果 目 标 数据 的 
条 件 分 布 是 多 峰 的 ， 那 么 条 件 均值 给 出 的 预测 会 很 差 。 

(14.16) (sy) 将 14.5.2 节 讨论 的 logistic 回 归 混 合 模型 推广 到 C > 2 个 类 别 的 softmax 分 类 器 
的 混合 。 写 出 通过 最 大 似 然 方 法 确定 模型 参数 的 EM 算法 。 

(14.17) (*) 考虑 条 件 概率 分 布 p(t | 2) 的 一 个 混合 模型 ， 形 式 为 





K 
p(t | £) = > newr(t | 2) (14.58) 
k= 


其 中 每 个 混合 分 量 wx(t | zx) 本 身 是 一 个 混合 模型 。 证 明 ， 这 个 两 层 的 层次 混合 模型 等 价 于 一 个 
传统 的 单 层 混合 模型 。 现 在 假设 这 样 的 层次 模型 中 ， 两 层 中 的 混合 系数 都 是 z 的 任意 函数 。 再 
次 证 明 这 个 层次 模型 等 价 于 一 个 单 层 的 模型 ， 其 中 混合 系数 与 x 相关 。 最 后 ， 考 虑 下 面 的 情 
形 : 层次 混合 模型 的 两 层 的 混合 系数 被 限制 为 线性 分 类 (logistic 或 softmax) 模型 。 证 明 ， 一般 
情况 下 ， 层 次 混合 模型 无 法 表示 为 混合 系数 是 线性 分 类 模型 的 单 层 混合 模型 。 提 示 : 为 了 完成 
这 件 事 ， 构 造 一 个 反例 即 可 。 因 此 考虑 两 个 分 量 的 混合 ， 其 中 一 个 分 量 本 身 是 两 个 分 量 的 混 
合 ， 混 合 系数 是 线性 logistic 模 型 。 证 明 它 无 法 表示 为 一 个 单 层 的 混合 模型 ， 这 个 模型 具有 3 个 分 
量 ， 混 合 系数 由 线性 softmax 模 型 确定 。 
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A 附录 A. 数据 集 


在 本 附录 中 ， 我们 简要 地 介绍 了 本 书 中 用 于 描述 某 些 算法 所 使 用 的 数据 集 。 对 
于 这 些 数据 集 的 文件 格式 的 详细 信息 ， 以 及 数据 文件 本 身 ， 可 以 从 本 书 的 网 站 中 得 
到 : http://research.microsoft.com/~cmbishop/VPRML 。 


A.1 手写 数字 


本 书 使 用 的 手写 数字 来 自 MNIST 数 据 集 (LeCun et al., 1998) 。 这 个 数据 集 的 构建 方式 是 修 
改 NIST (the National Institute of Standards and Technology) 产生 的 一 个 大 数据 集 的 子 集 。 这 个 数 
据 集 由 一 个 包含 60000 个 样本 的 训练 集 和 一 个 包含 10000 个 样本 的 测试 集 组 成 。 数 据 集 里 的 某 些 
数据 采集 自 Census Bureau 的 员工 ， 其 余 的 采集 自 高 中 生 。 此 外 ， 数 据 集 构建 人 员 仔 细 确 保 了 测 
试 样 本 的 书写 者 与 训练 样本 的 书写 者 不 同 。 

原始 的 NIST 数 据 为 二 元 (黑白 ) 像素 。 为 了 创建 MNIST， 这 些 图 像 的 大 小 被 统一 
成 20 x 20 像 素 ， 并 且 保 留 了 长 宽 比 。 为 了 在 改变 图 像 分 辩 率 之 后 减少 失真 ， 最 终 的 MNIST 是 灰 
度 图 。 这 些 图 像 然 后 被 居中 在 一 个 28 x 28 的 盒子 中 。 图 A.1 给 出 了 MNIST 数 字 的 例子 。 

使 用 一 个 简单 的 线性 分 类 器 ， 数 字 分 类 的 错误 率 为 12%。 使 用 一 个 仔细 设计 的 支持 向 量 机 ， 
错误 率 降 至 0.56%。 使 用 卷 积 神经 网 络 (LeCun et al., 1998) ， 错 误 率 为 0.4% 。 


A.2 石油 流 

这 是 一 个 由 某 个 项 目 产生 的 人 工 合成 的 数据 。 这 个 项 目 用 来 测量 北海 石油 传输 管道 中 ， 不 混 
溶 的 石油 、 水 、 天 然 气 的 比例 。 它 依赖 于 双 能 量 伽 马 密度 (dual-energy gamma densitometry) 原 
则 。 这 个 原则 的 思想 是 ， 如 果 一 窗 束 伽 马 射线 穿 过 管道 ， 射 线 强 度 的 衰减 提供 了 管道 中 材料 密 
度 的 信息 。 例 如 ， 射 线 通 过 石油 之 后 的 衰减 会 强 于 通过 天 然 气 之 后 的 衰减 。 

简单 地 测量 射线 的 衰减 提供 的 信息 并 不 充分 ， 因 为 有 两 个 自由 度 ， 对 应 着 石油 的 比例 和 水 的 
比例 (天然气 的 比例 是 宛 余 的 ， 因 为 三 个 比例 相 加 一 定 等 于 1) 。 为 了 体现 这 一 点 ， 两 个 有 着 不 
同 能 量 (或 者 说 不 同 频率 或 波长 ) 的 伽 马 射线 沿 着 同样 的 路 径 穿 过 管道 ， 两 条 射线 的 衰减 分 别 
测量 。 由 于 不 同 材 料 的 吸收 属性 关于 能 量 的 变化 函数 不 同 ， 两 种 能 量 衰减 的 测量 提供 了 两 条 独 
芯 的 信息 。 给 定 两 种 能 量 下 ， 石 油 、 水 、 天 然 气 的 吸收 属性 ， 计 算 沿 着 伽 马 射线 路 径 方 向 上 的 
平均 油水 比例 就 很 容易 了 。 

但 是 还 有 一 个 复杂 之 处 与 沿 着 管道 的 材料 的 运动 相关 。 如 果 流 速 很 慢 ， 那 么 石油 会 漂浮 在 水 
上 面 ， 天 然 气 位 于 石油 上 面 。 这 被 叫做 薄片 状 〈laminar) 或 者 层次 化 (stratified) 流 配置 ， 如 图 
A.2 所 示 。 随 着 流速 增加 ， 会 产生 更 复杂 的 石油 、 水 、 天 然 气 的 几何 配置 。 为 了 描述 这 种 数据 
集 ， 开 发 者 考虑 了 两 种 特定 的 理想 化 情形 。 在 环 状 (annular) 配置 中 ， 石 油 、 水 、 天 然 气 构成 
了 同心 圆柱 ， 水 在 最 外 层 ， 天 然 气 在 中 心 。 在 同 质 状 (homogeneous) 配置 中 ， 开 发 者 假定 石 
油 、 水 、 天 然 气 紧密 混合 。 这 种 配置 可 能 出 现在 高 流速 的 情形 中 。 这 些 配 置 也 在 图 A.2 中 给 出 。 

我 们 已 经 看 到 ， 简 单 的 双 能 量 伽 马 射线 能 够 测量 沿 着 射线 传播 方向 上 的 油水 比例 。 但 是 我 们 
感 兴趣 的 是 石油 和 水 的 体积 比 。 使 用 多 条 双 能 量 伽 马 射线 ， 每 条 射线 通过 管道 的 不 同 区 域 ， 我 
们 就 可 以 达到 这 个 目的 。 对 于 这 个 特定 的 数据 集 ， 有 六 条 射线 ， 它 们 的 空间 分 布 如 图 A.3 所 示 。 
因此 ， 一 个 简单 的 观测 由 一 个 12 维 的 向 量 表示 ， 这 个 向 量 包 含 每 条 射线 沿 着 路 径 方 向 的 油水 比 
例 。 但 是 ， 我们 感 兴趣 的 是 管道 中 三 种 物质 的 整体 体积 比例 。 这 很 像 经 典 的 断层 显 像 重建 问 
题 ， 用 于 诸如 医学 图 像 等 领域 。 在 断层 显 像 重建 技术 中 ， 通 过 一 系列 的 一 维 均 值 ， 我 们 可 以 重 
建 出 一 个 二 维 的 分 布 。 在 我 们 的 问题 中 ， 线 度量 的 数量 要 远 远 小 于 断层 显 像 重建 的 应 用 。 男 一 
方面 ， 我 们 的 问题 中 ， 儿 何 配 置 的 种 类 也 很 有 限 ， 因 此 通过 密度 数据 ， 我 们 可 以 在 一 个 合理 的 
精度 下 预测 配置 和 各 个 物质 所 占 的 比例 。 

出 于 安全 考虑 ， 伽 马 射线 的 强度 相对 较 弱 ， 因 此 为 了 准确 测量 强度 的 衰减 ， 测 量 的 射线 强度 
在 一 个 具体 的 时 间 区 间 内 积分 。 对 于 有 限 的 积分 时 间 ， 测 量 的 射线 强度 会 有 随机 的 涨 落 。 这 是 
因为 伽 马 射线 是 由 被 称 为 量子 的 离散 能 量 包 组 成 的 。 在 实际 应 用 中 ， 积 分 时 间 的 选择 要 在 降低 
噪声 〈 需 要 较 长 的 积分 时 间 ) 和 检测 流 的 时 序 变化 〈 需 要 较 短 的 积分 时 间 ) 之 间 进 行 折 中 。 在 
生成 石油 流 数据 集 时 ， 两 束 仰 马 射线 的 能 量 已 知 ， 在 这 种 能 量 下 石油 、 水 、 天 然 气 的 能 量 也 已 
知 ， 积 分 时 间 选 择 被 设 定 为 一 个 特定 的 时 间 (10 秒 ) ， 这 是 实际 应 用 中 的 典型 设置 。 
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图 A.1: MNIST 手 写 数据 集 的 100 个 样本 ， 从 训练 集 里 随机 选择 。 
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图 A.2: 石油 、 水 、 天 然 气 的 三 种 几何 配置 ， 用 来 生成 石油 流 数 据 集 。 对 于 每 种 配置 ， 三 种 成 分 的 比例 可 
以 改变 。 





图 A.3: 管道 的 横 切 面 ， 表 示 六 个 射线 束 的 配置 ， 每 个 射线 对 应 着 一 个 双 能 量 伽 马 射线 密度 计 。 注 意 ， 垂 
直射 线束 关于 中 心 轴 (虚线 表示 ) 不 是 对 称 的 。 
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图 A.4: 黄石 国家 公园 的 老 忠实 间歇 喷泉 。www.brucegourley.com 


数据 集中 的 每 个 数据 点 独立 地 使 用 下 面 的 步骤 生成 : 
1. 等 概率 地 随机 选择 三 种 配置 中 的 一 种 。 
2. 在 (0,1) 上 的 均匀 分 布 上 ， 随 机 选择 三 个 数 户 , fo, 户 ， 并 且 定 义 : 


万 户 
dn i 及 十 f+ fs 
这 里 平等 地 对 待 三 种 物质 ， 并 且 确 保 了 体积 分 数 的 和 等 于 1。 

3. 对 于 六 条 射线 中 的 每 一 个 ， 计 算 在 给 定 的 配置 下 通过 石油 和 水 的 有 效 路 径 长 度 。 

4. 根据 已 知 的 射线 强度 和 积分 时 间 ， 使 用 泊 松 分 布 来 扰乱 路 径 长 度 ， 从 而 模拟 量子 统计 学 的 
效应 。 

数据 集 里 的 每 个 点 包括 12 个 路 径 长 度 的 测量 、 石 油 和 水 的 比例 ， 以 及 一 个 描述 配置 的 二 元 标 
签 。 数 据 集 被 切 分 成 训练 集 、 验 证 集 和 测试 集 ， 每 个 都 由 1000 个 独立 的 数据 点 构成 。 数 据 格式 
的 细节 可 以 从 本 书 的 网 站 中 得 到 。 

在 Bishop and James (1993) 中 ， 根 据 12 维 测量 的 向 量 ， 统 计 机 句 学 习 技 术 被 用 来 预测 体积 分 
数 ， 以 及 图 A.2 所 示 的 几何 配置 。12 维 观测 向 量 也 可 以 用 在 测试 数据 可 视 化 算法 当中 。 

这 个 数据 集 有 着 丰富 的 并 且 很 有 趣 的 结构 。 对 于 任意 一 个 给 定 的 配置 ， 有 两 个 自由 度 ， 分 别 
对 应 于 油 和 水 的 比例 ， 因 此 对 于 无 限 的 积分 时 间 ， 数 据 将 会 位 于 一 个 局 部 的 二 维 流 形 中 。 对 于 
有 限 的 积分 时 间 ， 各 个 数据 点 会 被 量子 噪声 干扰 ， 脱 离 流 形 。 在 同 质 状 配置 中 ， 石 油 和 水 中 的 
路 径 长 度 与 石油 和 水 的 比例 线性 相关 ， 因 此 数据 点 位 于 线性 流 形 中 。 对 于 环 状 配置 ， 物 质 比 例 
和 路 径 长 度 的 关系 是 非 线性 的 ， 因 此 流 形 就 是 非 线性 的 。 在 薄片 状 配置 中 ， 配 置 甚至 更 加 复 
杂 ， 因 为 物质 比例 的 微小 的 改变 能 够 引起 某 个 水 平分 界线 移 过 某 条 伽 马 射线 ， 这 会 导致 12 维 观 
测 空间 中 的 非 连续 跳 变 。 这 样 ， 薄 片 状 配置 的 二 维 非 线性 流 形 就 破裂 为 10 个 不 同 的 碎片 。 还 要 
注意 ， 对 于 不 同 的 配置 ， 某 些 流 形 会 在 特定 的 点 处 交汇 。 例 如 ， 如 果 管 道中 充满 了 石油 ， 那 么 
它 对 应 着 薄片 状 、 环 状 、 同 质 状 配置 的 特殊 情况 。 





A.3” 老 忠实 间 欣 喷泉 


老 忠 实 间 吹 喷泉 ， 如 图 A.4 所 示 ， 是 美国 怀俄明 州 黄石 国家 公园 中 的 一 个 间 上 软 喷泉 ， 也 是 一 
个 著名 的 旅游 景点 。 它 的 名 字 来 源 于 它 的 喷发 很 有 规律 。 

数据 集 由 272 次 观测 组 成 ， 每 次 观测 表示 一 次 喷发 ， 包 含 两 个 变量 ， 分 别 对 应 喷发 的 持续 时 
间 (用 分 钟表 示 ) 和 距离 下 次 喷发 的 时 间 (也 用 分 钟表 示 ) 。 图 A.5 给 出 了 距离 下 次 喷发 的 时 间 
关于 喷发 持续 时 间 的 图 像 。 可 以 看 到 ， 距 离 下 次 喷发 的 时 间 变 化 范围 很 大 ， 但 是 关于 本 次 喷发 
持续 时 间 的 知识 能 够 让 我 们 进行 更 加 准确 的 预测 。 需 要 注意 的 是 ， 关 于 老 忠 实 间 敬 喷泉 的 喷 
发 ， 存 在 几 个 其 他 的 数据 集 。 
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图 A.5: 对 于 老 忠 实 间 欣 喷泉 数据 集 ， 两 次 喷发 的 时 间 间 隔 ( 竖 直 轴 ) 与 喷发 持续 时 间 (水 平 轴 ) 的 关 
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i 一 
图 A.6: 左 图 给 出 了 人 工 生成 的 回归 数据 ， 以 及 用 于 生成 数据 点 的 的 正弦 函数 。 右 图 给 出 了 生成 标签 的 真 
实 的 条 件 概 率 分 布 p(t | z)， 其 中 绿色 曲线 表示 均值 ， 阴 影 区 域 表 示 均 值 两 侧 一 个 标准 差 的 位 置 。 





A.4 人 工 生成 数据 


在 全 书 中 ， 我 们 使 用 了 两 个 简单 的 人 工 生成 的 数据 来 说 明 许 多 算法 。 第 一 个 是 回归 问题 ， 依 
据 图 A.6 所 示 的 正弦 函数 。 输 入 变量 {z*} 在 (0, 1) 内 按照 均匀 分 布 生成 ， 对 应 的 目标 值 {t} 的 获得 
方式 为 : 首先 计算 函数 sin(2rz) 的 对 应 值 ， 然 后 加 上 一 个 满足 标准 差 为 0.3 的 高 斯 分 布 的 噪声 。 
本 书 使 用 了 这 个 数据 集 的 各 种 形式 ， 每 种 形式 的 数据 点 数量 都 不 同 。 

第 二 个 数据 集 是 一 个 分 类 问题 ， 有 两 个 类 别 ， 先 验 概率 相同 ， 如 图 A.7 所 示 。 蓝 色 的 类 别 由 
一 个 高 斯 分 布 生 成 ， 而 红色 的 类 别 由 两 个 混合 的 高 斯 分 布 生成 。 由 于 我 们 知道 类 先 验 概率 和 类 
条 件 概 率 密 度 ， 因 此 很 容易 佑 计 并 画 出 真实 的 后 验 概率 以 及 最 小 错误 分 类 率 决 策 边界 ， 如 图 A.7 
所 示 。 
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图 A.7: 左 图 给 出 了 人 工 生成 的 分 类 数据 集 ， 两 个 类 别 用 红色 和 蓝 色 表 示 。 右 图 是 对 应 的 真实 后 验 概率 ， 
颜色 从 纯 的 红色 (表示 属于 红色 类 别 的 概率 为 1) 变化 到 纯 的 蓝 色 (表示 属于 蓝 色 类 别 的 概率 为 0) 。 由 
于 这 些 概率 是 已 知 的 ， 因 此 最 小 化 误 分 类 概率 的 最 优 决策 边界 (对 应 于 属于 每 个 类 别 的 概率 等 于 0.5 的 轮 
廓 线 ) 可 以 计算 ， 用 绿色 曲线 表示 。 决 策 边界 也 在 左 图 中 给 出 。 


B 附录 B. 概率 分 布 


在 本 附录 中 ， 我们 总 结 了 一 些 广泛 使 用 的 概率 分 布 的 性 质 。 对 于 每 个 概率 分 布 ， 我 们 列 出 了 
一 些 关 键 的 统计 性 质 ， 例 如 期 望 EE[z]、 方 差 ( 或 者 协 方差 ) ， 众 数 ， 炉 五 [zx]。 所 有 这 些 分 布 都 
是 指数 族 的 成 员 ， 被 广泛 用 作 更 高 级 的 概率 模型 的 基本 模块 。 














B.1 伯 努 利 分 布 


这 是 单一 二 元 变量 z € {0,1} 的 分 布 ， 例 如 ， 抛 硬币 的 结果 。 它 由 一 个 连续 参数 1 & [0,1] 控 
制 ， 这 个 参数 表示 x = 1 的 概率 。 














Bern(z | 1) = (1 — 1) (B.1) 
Elz| = (B.2) 
vat[z| = x(1—) (B.3) 

_ jl 如果 0.5 
mode[zx| = | 否则 (B.4) 
Hlz]= -AAA 一 向 In 一 内 (B.5) 


伯 努 利 分 布 是 二 项 分 布 对 于 单一 观测 的 特殊 情况 。 它 对 于 /的 共 恩 先 验 是 Beta 分 布 。 


B.2 Beta 分布 


这 是 连续 变量 1 s [0, 1] 的 分 布 ， 经 常用 于 表示 某 些 二 元 事件 的 概率 。 它 有 两 个 参数 a 和 5b。 为 
了 保证 分 布 能 够 归 一 化 ， 我 们 要 求 a > 0 并 且 > 0。 


Ta 十 由) ,1 























Betaw | 0b) = TEA (一 2 (B.0) 
"网 = - 。 (B.7) 
Von a 下 本 让 BD 
mode[J] = 2 (B.9) 
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Beta 分 布 是 伯 努 利 分 布 的 共 轿 先 验 ， 其 中 a 和 5 可 以 分 别 表示 为 x = 1 和 zx = 0 的 观测 的 有 效 先 
验 数 量 。 如 果 a > 1 且 b > 1， 那 么 它 的 概率 密度 是 有 限 值 ， 否 则 在 4 = 0 和 (或) 1 = 1 处 会 有 
奇异 值 。 对 于 a = b= 1 的 情形 ， 它 就 简化 成 了 均匀 分 布 。Beta 分 布 是 K 状 态 狄 利克 雷 分 布 
在 K = 2 时 的 特殊 情形 。 


B.3 ”二 项 分 布 


二 项 分 布 给 出 了 来 自 伯 努 利 分 布 的 N 个 样本 中 观察 到 mm 次 z = 1 的 概率 。 伯 努 利 分 布 中 ， 观 
侍 到 z = 1 的 概率 是 4 € [0, 1]。 














Bin(m | Ni = (jordansm (B10) 
Elm| = NA (B.11) 
varlm| = Nyu(1 — 1) (B.12) 
modelm] = [(N + 1 B13) 
其 中 ，[(N 十 1)n| 表 示 不 超过 (N 二 1)4 的 最 大 整数 。 此 外 
[> 上 i oe (B.14) 


表示 从 N 个 完全 相同 的 物体 中 选择 m 个 物体 的 总 方案 数量 。 这 里 ml! 表 示 乘 
积 m x (m 一 1) x ... Xx2x1。 二 项 分 布 中 NN = 1 这 一 特殊 导 多 被 称 为 伯 努 利 分 布 ， 对 于 大 
的 NN 值 ， 二 项 分 布 近似 于 高 斯 分 } 布 。 7 的 共 轴 先 验 是 Beta 分 } 布 。 

B.4 ” 狄 利克 雷 分 布 


狄 利克 雷 分 布 是 KK 个 随机 变量 0 < yx < 1 的 多 变量 分 布 ， 其 中 上 = 1,.….,KK， 并 且 满 足下 面 
的 限制 


0<u<1l ,k= (B.15) 


记 几 一 (0 NK), CQe: 一 (al .，,QaK) 工 ， 我 们 有 
































K 
Dir(p | a) = Cl(a) [I Le (B.10) 
k=1 
[wk] = 2 (B.17) 
QO 
和 Qk(Q — Qk) 
var|ux| = GE (B.18) 
a QiOQk 
cov[ujup] = -TD (B.19) 
= 
mode[J] = 二 (B.20) 
Elln pr] = (ak) — YQ) (B.21) 
Kk 
Hlu| = 一 》 (an 一 JJ{W(ap) 一 %a) — InC(a) (B.22) 
k=1 
其 中 _ 
C(a) = El (B.23) 
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并 且 


K 
他 = 》 ax (B.24) 
k=1 
这 里 
vl(a) 三 de lInT'(a) (B.25) 


被 称 为 digamma 困 数 (Abramowitz and Stegun, 1965) 。 为 了 保证 概率 归 一 化 ， 参 数 ax 满 足 限 
制 Qx > 0。 

狄 利克 雷 分 布 是 多 项 式 分 布 的 共 园 验 ， 是 Beta 分 布 的 推广 。 这 种 情况 下 ， 参 数 ax 是 K 维 二 
元 观测 向 量 z 对 应 值 的 有 效 观 测 数量 。 和 Beta 分 布 相同 ， 如 果 对 于 所 有 的 k 都 有 oi > 1， 那 么 狄 
利克 雷 分 布 在 空间 中 所 有 位 置 的 密度 均 为 有 限 值 。 


B.5 ”Gamma 分 布 


Gamma 分 布 是 正 随 机 变量 7 > 0 的 概率 分 布 ， 参 数 为 a 和 5， 满 足 限制 a > 0 和 5 > 0， 保 证 概 
率 分 布 是 归 一 化 的 。 


























Gam(7T | a,0b) = 4 (B.20) 
Er] = 7 (B.27) 

var[r] = 五 (B.28) 

dl 2 当 a > 1 时 成 立 (B.29) 
pln7] = Wo — Inb (B.30) 

Br =InT(a) (a Wa) -Inb+a (B31) 





其 中 ，V%() 是 公式 (B.25) 定义 的 digamma 函 数 。Gamma 分 布 式 单 变 量 高 斯 分 布 的 精度 (方差 的 
倒数 ) 的 共 轿 先 验 。 当 a > 1 时 ， 概 率 密度 处 处 为 有 限 值 ，a = 1 这 一 特殊 情况 被 称 为 指数 分 布 


(exponential distribution) 。 


B.6 高 斯 分 布 


高 斯 分 布 是 连续 变量 中 最 广泛 使 用 的 概率 分 布 。 它 也 被 称 为 正 态 分 布 (normal 
distribution) 。 在 一 元 变量 z e (一 00, ceo) 的 情况 下 ， 它 由 两 个 参数 控制 : 均值 We (一 00, 00) 和 方 
差 o2 > 0。 

















N(z | 4,0°) = Ss exp ( 3 (Zz 四 ?) (B.32) 
Ex] = (B.33) 

var[z] = 07 (B.34) 

modelz] = (B.35) 

Hlz| = 5 ln o2 十 31 十 ln(27r)) (B.30) 


方差 的 倒数 7 = 去 被 称 为 精度 ， 方 差 的 平方 根 o 被 称 为 标准 差 。1 的 共 轿 先 验 是 高 斯 分 布 ， 7 的 
共 斩 先 验 是 Gamma 人 分布。 如果/ 和 7 都 是 未 知 的 ， 那 么 它们 的 联合 共 斩 先 验 是 高 斯 -Gamma 分 
布 。 
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对 于 一 个 忆 维 向 量 z， 高 斯 分 布 的 参数 是 一 个 忆 维 均值 向 量 4 和 一 个 乙 x 刀 的 协 方差 矩阵 己 。 
协 方 差 矩 阵 一 定 是 对 称 的 、 正 定 的 。 

















N(z | 4k,>)= exp {-ie 一 /Zr-L(z 一 中 } (B.37) 
(27) 三 |2|? 和 

E[z] 三 多 (B.38) 

cov[z] = 5 (B.39) 

mode[z] = (B.40) 

Hla] = 51n|Dl+ S01+In(2n)) (B41) 


协 方差 矩阵 的 道 矩 阵 A = 允 政 叫做 精度 和 矩阵， 也 是 对 称 的 、 正 定 的 。 根 据 中 心 极 限定 理 ， 随 机 
变量 的 平均 值 趋 近 于 高 斯 分 布 ， 并 且 两 个 高 斯 变量 之 和 仍然 是 高 斯 。 给 定 方差 (或 者 协 方 
差 ) ， 高 斯 分 布 是 最 大 化 信 值 的 分 布 。 高 斯 随机 变量 的 任意 线性 组 合 仍 然 是 高 斯 分 布 。 多 元 高 
斯 的 变量 关于 变量 的 一 个 子 集 的 边缘 分 布 仍然 是 高 斯 分 布 ， 类 似 地 ， 条 件 分 布 也 是 高 斯 分 
布 。/ 的 共 斩 先 验 仍然 是 高 斯 分 布 ，A 的 共 斩 先 验 是 一 个 Wishart 分 布 ，( 凡 ,人 A) 的 共 恩 先 验 是 高 
斯 -Wishart 分 布 。 

如 果 我 们 有 一 个 z 的 边缘 高 斯 分 布 ， 以 及 在 给 定 z 的 条 件 下 yY 的 条 件 高 斯 分 布 ， 形 式 如 下 











p(z) =N(z | p,AT) (B.42) 
p(y|z)=N(y| Az+b,L ) (B.43) 
那么 y 的 边缘 分 布 ， 以 及 给 定 y 的 条 件 下 zx 的 条 件 分 布 分 别 为 
p(y =Ny| Ap+b,L 1!+ AA- A) (B.44) 
p(z|y) = Nz | TD{A LY —b)+An},5) (B.45) 
其 中 
=(A+ALA)! (B.40) 


如 果 我 们 有 一 个 联合 高 斯 分 布 NV(z | 4, 忆 )， 且 A 三 马 “， 并 且 我 们 定义 下 面 的 划分 


(Za (Ha 
的 mm 


Poa Pap Aua | 
= ，A= B.48 
CG | (0 App 人 


那么 条 件 概 率 分 布 p(xa | zb) 为 


p(Ta | 10) = N(x | palo, Aaa) (B.49) 
Halb 二 Ha 一 A 志 Auo(zb s Ho) (B.50) 

边缘 分 布 P(za) 为 
D(zo) = N (za | Lo, Daa) (B.51) 


B.7 高 斯 -Gamma 分 布 


这 是 一 元 高 斯 分 布 W(z | 凡 和 3) 的 共 柜 先 验 ， 其 中 均值 /和 精度 和 均 未 知 。 这 个 分 布 也 被 称 为 
正 态 -Gamma 分 布 。 它 是 精度 正比 于 和 的 /的 高 斯 分 布 与 的 Gamma 分 布 的 乘积 。 


DLL 入 | Ho, P, a, b) 二 人 (1 | /0， (8M) ) Gamf( 入 | a, b) (B.52) 


403 
wwaibbt.com DODODDODODOD 


B.8 高 斯 -Wishart 分 布 


这 是 多 元 高 斯 分 布 N(z | 凡人 A) 的 共 恩 先 验 ， 其 中 均值 4 和 精度 A 均 未 知 。 这 个 分 布 也 被 称 为 
正 态 -Wishart 分 布 。 它 是 精度 正比 于 A 的 4 的 高 斯 分 布 与 A 的 Wishart 分 布 的 乘积 。 


p(4,A | Ko,b, W, v) 二 人 (NA | Ho, (BA) -WA | W, 2) (B.53) 
对 于 标量 z 的 情况 ， 它 等 价 于 高 斯 -Gamma 分 布 。 


B.9 多 项 式 分 布 


如 果 我 们 把 伯 努 利 分 布 推广 到 开 维 二 元 变量 z， 分 量 zk € {0,1} 且 >; zx 二 1， 那么 我 们 由 下 
面 的 离散 分 布 

















KkK 
p(x) = [I Mt (B.54) 
k=1 
oe (B.55) 
var[zx| = Wx(l1 — Wx) (B.50) 
cov|zjzx] = 一 LTJUKE， 了 天 大 (B.57) 
Kk 
Hl[z] = — 2 hy ln pp (B.58) 
k=1 


由 于 p(zx = 1) = jp， 因 此 参数 必须 满足 0 < jx < 1 以 及 > hx = 二 1。 
多 项 式 分 布 式 二 项 分 布 对 于 多 元 变量 的 推广 ， 给 出 了 一 个 具有 K 个 状态 的 离散 变量 在 总 
计 入 次 观测 中 处 于 状态 的 次 数 mx 的 分 布 。 

















K 
N 
Mult(mi,m2,..., mk | AVI) 三 (Ee je) [I er (B.59) 
wi | 
E [mx] 二 Nu (B.60) 
var[Imx| = Nux(l — nx) (B.61) 
covImjmax] = —Nuyhr, 了 天 大 (B.62) 


a ) 苦 a (B.63) 
M12 .TMM mil...mr! 

给 出 了 把 N 个 相同 的 物体 中 的 mx 个 放 到 箱子 k 中 的 方案 总 数 ， 其 中 == 1,.…, 玉 。j 的 值 给 出 了 
随机 变量 处 于 k 状 态 的 概率 ， 因 此 必须 满足 0 < yw < 1 目 》jj kx = 1。 参 数 {x} 的 共 轿 先 验 是 狄 
利克 雷 分 布 。 


B.10” 正 态 分 布 


正 态 分 布 是 高 斯 分 布 的 另 一 个 名 字 。 本 书 中 ， 我 们 始终 使 用 高 斯 分 布 这 个 术语 ， 虽 然 我 们 遵 
循 惯例 ， 用 人 来 表示 这 个 分 布 。 为 了 记号 的 统一 ， 我 们 把 正 态 -Gamma 分 布 称 为 高 斯 -Gamma 分 
布 ， 把 正 态 -Wishart 分 布 称 为 高 斯 -Wishart 分 布 。 
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B.11 学 生 t 分 布 


这 个 分 布 由 William Gosset 在 1908 年 提出 ， 但 是 他 的 老板 Guiness Breweries 让 他 用 笔名 发 表 ， 
因此 它 选择 了 “学 生 " 这 个 笔名 。 在 一 元 变量 的 形式 下 ， 学 生 t 份 布 可 以 通过 下 列 方式 获得 : 拿 出 
一 元 高 斯 分 布 的 精度 的 共 斩 先 验 ， 然 后 把 精度 变量 积分 出 来 。 因 此 这 个 分 布 可 以 看 成 无 限 多 个 
有 着 相同 均值 不 同方 差 的 高 斯 分 布 的 混合 。 





























T(z 十 工 A 
St(z | 1, N,v) = 记 ( 壮 ) [ 全 > (B.64) 
2 
gz] = vv 当 v > 1 时 成 立 (B.65) 
varle] = 当 v > 2 时 成 立 (B.60) 
modelz] = (B.67) 


这 里 > > 0 被 称 为 分 布 的 自由 度数 量 。v = 1 的 特殊 情况 被 叫做 柯 西 分 布 (Cauchy distribution) 。 
对 于 一 个 刀 维 变量 z， 学 生 t 分 布 是 将 多 元 高 斯 的 精度 矩阵 关于 共 斩 Wishart 先 验 积分 的 结果 ， 
形式 为 




















T(S+ DD) IA | 和 
S AD) = 一 人 5 |11 B.68 
t(z | p, A,r) Oe (B.68) 
E[z] = 1 当 v > 1 时 成 立 (B.69) 
covlzj] = = - 5 人 ” 当 v > 2 时 成 立 (B.70) 
modelz] = (B.71) 


其 中 ， 人 A? 是 平方 马 氏 距离 ， 定 义 为 
A = (£1) A(z— nh) (B.72) 
在 极限 v 一 oo 的 情况 下 ， 夫 布 简化 为 均值 ， 精 度 A 的 高 斯 分 布 。 学 生 t 份 布 提供 了 对 高 斯 分 布 
泛 化 的 一 种 形式 ， 这 种 分 布 的 最 大 似 然 参数 值 对 离 群 点 比较 鲁 棒 。 
B.12 均匀 分 布 
这 是 连续 变量 z 的 一 种 简单 分 布 。z 定 义 在 有 限 区 间 z E [中 ， 且 > a。 


























U(z|o,b) = 和 E (B.73) 
plz] = 8 5 (B.74) 

2 
var|zx| = 已 (B.75) 
Hlz| = ln( — a) (B.70) 


如 果 z 服 从 均匀 分 布 U(zx | 0,1)， 那 么 a 十 (5 一 a)z 服 从 均匀 分 布 U(x | a, 05)。 


B.13 ”Von Mises 分 布 


Von Mises 分 布 ， 也 被 称 为 环形 正 态 分 布 或 者 环形 高 斯 分 布 ， 是 一 元 变量 9 es [0, 27) 的 类 似 高 
斯 的 周期 分 布 。 
p(0 | 00,m) = eC exp{m cos(0 一 00)} (B.77) 
其 中 10(m) 是 零 阶 第 一 类 Bessel 函 数 。 分 布 的 周期 是 2+， 因 此 对 于 所 有 的 0 都 有 p(0++27) = p(9)。 
在 表述 这 个 分 布 时 需要 小 心 ， 因 为 简单 的 期 望都 要 取决 于 变量 0 的 原点 的 (任意 ) 选择 。 参 
数 00 类 似 于 一 元 高 斯 分 布 的 均值 。 参 数 m > 0， 被 称 为 concentration 参 数 ， 类 似 于 高 斯 分 布 的 精 
度 (方差 的 倒数 ) 。 对 于 大 的 w 值 ，Von Mises 分 布 近似 于 以 bo 为 中 心 的 高 斯 分 布 。 
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B.14 ”Wishart 分 布 
Wishart 分 布 是 多 元 高 斯 的 精度 矩阵 的 共 轿 先 验 。 


v—D-1 





WI(A | W,r) = B(W,v)IAl| exp ( -or 


导 








D x 
v rpD D(D-1) v+1—i 
B(W = |W 2 LT 
(wns wr (2Pr Tr (3—)) 


i=1 











EIA| =vW 


D 
elin|A|] = Dy (2 + Din2+In|W| 


i 二 1 




















v—D—1 vD 


HIA|= -ln B(W,v)— 5 ln A + 











(B.78) 


(B.79) 


(B.80) 


(B.81) 


(B.82) 


其 中 ，W 是 一 个 D x D 对 称 正定 矩阵 ，() 是 公式 (B.25) 定义 的 digamma 隙 数 。 参 数 v 被 称 为 
分 布 的 自由 度 的 数量 (number of degrees of freedom) ， 满 足 限制 x > D 一 1， 以 保证 归 一 化 因 
子 中 的 Gamma 函 数 有 着 良好 的 定义 。 在 一 维 情 形 下 ，Wishart 分 布 就 变 成 了 公式 (B.26) 定义 


的 Gamma 分 布 Gam( 和 | ,0)， 参 数 为 4 一 ,b= 动 。 
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C 附录 C. 和 矩阵 的 性 质 


在 这 个 附录 中 ， 我 们 汇总 了 一 些 涉及 到 和 矩阵 和 行列 式 的 有 用 的 性 质 。 这 里 不 打算 写成 一 个 入 
门 性 教程 ， 并 且 我 们 假定 读者 已 经 熟悉 了 基本 的 线性 代数 。 对 于 某 些 结论 ， 我 们 给 出 证 明 。 对 
于 更 加 复杂 的 结论 ， 我 们 留 给 感 兴趣 的 读者 参考 标准 的 教科 书 。 在 所 有 情况 下 ， 我 们 都 假 
定 逆 矩 阵 存 在 ， 并 且 和 矩阵 的 维度 能 够 让 公式 正确 定义 。 线 性 代数 的 一 个 可 理解 的 讨论 可 以 
参考 Golub and Van Loan (1996) 。Liitkepohl (1996) 汇编 了 矩阵 的 一 些 扩展 性 质 。Magnus and 
Neudecker (1999) 讨论 了 和 矩阵 的 导数 。 


C.1 矩阵 的 基本 性 质 


矩阵 A 的 第 i 行 第 j 列 的 元 素 为 4;;。 我 们 用 Tn 表示 N x 的 单位 和 矩阵。 在 没有 歧义 的 情形 
下 ， 我 们 简单 地 记 作 I。 转 置 矩 阵 A? 的 元 素 为 (47)ij = 47i。 根据 转 置 的 定义 ， 我 们 有 


(AB)’ = BAT (C.D) 
写 出 元 素 的 下 标 ， 即 可 得 出 上 面 的 结果 。4 的 逆 和 矩阵 ， 记 作 4-: ， 满 足 
AA 1=A 1A=I (C.2) 
由 于 4BB-1A-! = 了, 我 们 有 
(AB) '= B-1A-! (C.3) 
我 们 还 有 
(4) =(47) (C4) 


将 公式 (C.2) 取 转 置 ， 然 后 应 用 公式 (C.1) ， 这 个 公式 可 以 很 容易 证 明 。 
关于 矩阵 的 逆 和 矩阵 ， 下 面 这 个 恒等式 很 有 用 


(Pii1+ BR 1B) BIR != PB'(BPB’T + R)! (C.5) 


两 侧 同 时 右 乘 (BPB”+ R)， 很 容易 证 明 上 式 的 正确 性 。 假 设 P 的 维度 为 N x N， 而 R 的 维度 
为 M x M， 从 而 B 的 维度 为 M x N。 这 样 ， 如 果 M < NN， 那么 估计 公式 (C.5) 的 右 侧 所 花费 
的 代价 就 远 远 小 于 佑 计 左 侧 的 代价 。 经 常 出 现 的 一 种 情况 是 





(IT 二 4)-14= A(I+BA)-! (C.0) 
另 一 个 与 抢 阵 的 逆 和 矩阵 相关 的 有 用 的 恒等式 为 
(A+BD 'C)'=A -A 'B(D+CA'B) -IC4-1 (C.7) 


这 被 称 为 Woodbury 恒 等 式 。 将 两 侧 同 时 乘 以 (4 二 BD-1C) 即 可 证 明 。 例 如 ， 假设 A 是 一 个 很 
大 的 对 角 和 矩阵 (因此 很 容易 求 逆 矩阵 ) ，B 的 行 数 很 多 列 数 很 少 (C 恰 好 相反 ) ， 此 时 计算 右 
侧 的 代价 就 远 远 小 于 计算 左 侧 的 代价 。 

一 组 向 量 {a1,.…. ,aN} 被 称 为 线性 相关 (linearly independent) 如 果 关 系 》，anan = 0 只 在 所 
有 om = 0 时 成 立 。 这 表明 ,没有 任何 一 个 向 量 能 够 表示 为 其 余 向 量 的 线性 组 合 。 和 矩阵 的 秩 是 线 
性 无 关 的 行 的 最 大 数量 (或 者 等 价 地 ， 线 性 无 关 的 列 的 最 大 数量 ) 。 


C2 迹 和 行列 式 


迹 和 行列 式 适用 于 方 阵 。 和 矩阵 A 的 迹 ITr(A) 被 定义 为 主 对 角 线 上 元 素 之 和 。 通 过 把 元 素 的 下 
标 写 出 来 ， 我们 可 以 看 到 





Tr(AB)= Tr(BA) (C.8) 
通过 多 次 把 这 个 公式 应 用 到 三 个 矩阵 的 乘积 上 ， 我 们 看 到 
Tr(ABC)= Tr(CAB)= Tr(BCA) (C.9) 
467 


wwaibbt.com DODDDDDD 





这 被 称 为 迹 操作 符 的 循环 〈cyclic) 性 质 。 很 明显 这 个 性 质 可 以 扩展 到 任意 数量 矩阵 的 乘积 。 一 


个 NN x NN 矩阵 的 行列 式 |A| 定 义 为 


14| = >》 (+1)A1 A2i, “ANin 





(C.10) 


这 个 式 子 对 所 有 满足 下 面 性 质 的 乘积 进行 求 和 : 乘积 包含 每 行 的 恰好 一 个 元 素 和 每 列 的 恰好 一 
个 元 素 。 系 数 十 1 或 者 一 1 取决 于 排列 iiiz ...in 是 奇 排列 还 是 偶 排 列 。 注 意 | 了 | = 1， 因 此 对 于 一 


个 2 x 2 矩阵 ， 行 列 式 的 形式 为 








14| 3 二 Q11Q22 一 Q12Q21 
两 个 矩阵 乘积 的 行列 式 为 
14 如 | = 4 如 | 
这 个 可 以 从 公式 (C.10) 得 到 。 此 外 ， 和 天 阵 的 闭 矩 阵 的 行列 式 为 
1 
> 
I4 | [a 


取 公 式 (C.2) 的 行列 式 然 后 应 用 公式 (C.12) 即 可 证 明 。 
如 果 和 4 和 BB 是 N x M 的 矩阵 ， 那 么 


IIn+ AB|= |Iy + A’7B| 


一 种 特殊 情况 是 
IIn+ab’|=1+a’b 


其 中 a 和 b 是 和 N 维 列 向 量 。 


C.3 矩阵 的 导数 














(C.11) 


(C.12) 


(C.13) 


(C.14) 


(C.15) 


有 时 ， 我 们 需要 考虑 向 量 和 矩阵 关于 标量 的 导数 。 向 量 a 关 于 标量 z 的 导数 本 身 是 一 个 向 





Oa _ Oai 
Ox MR Ox 


矩阵 的 导数 的 定义 与 此 类 似 。 关 于 向 量 和 和 矩阵 的 导数 也 可 以 被 定义 。 例 如 


Oz _ Oz 
Oa ;Oai 


( 动 ，- 品 
WB), pj 


写 出 矩阵 的 各 个 元 素 ， 下 面 的 性 质 很 容易 证 明 





类 似 地 





二 (ora = O(a) =a 
2 0 04 aoB 
Se 
矩阵 的 逆 矩 阵 的 导数 可 以 表示 为 
二 (4 a 
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(C.10) 


(C.17) 


(C.18) 


(C.19) 


(C.20) 


(C.21) 


使 用 公式 (C.20) 对 方程 4 一 4 = T 求 微分 ， 然 后 右 乘 4 一 即 可 证 明 。 并 且 


0 DO4 
= | 二 工 2 C.22 
Br n 14| (4 By ) ( ) 


这 个 我 们 稍 后 会 证 明 。 如 果 我 们 把 z 选 成 4 中 的 元 素 ， 那 么 我 们 有 





0 
OA Tr(AB,) Bji (C.23) 
写 出 矩阵 的 下 标 即 可 证 明 这 个 等 式 。 我 们 可 以 把 这 个 结论 写成 更 加 简洁 的 形式 
0 a T 
Tr(AB)=B (C.24) 
使 用 这 种 记号 ,我们 有 下 列 性 质 
FA (A B)=B (C.25) 
0 
A Tr(4) = 工 (C.20) 
-Th4B47) -~ 4(B + BT) (C.27) 


04 
这 些 也 可 以 通过 写 出 矩阵 下 标的 方式 证 明 出 。 我 们 也 有 


O = = 
In|A|=(A ) (C.28) 
根据 公式 (C.22) 和 公式 (C.24) 即 可 证 得 。 
c.4 特征 向 量 方程 
对 于 一 个 M x M 的 方 阵 A， 特 征 向 量 方程 的 定义 为 
Aui 二 入 ii (C.29) 


其 中 i = 1,...,M，wui; 被 称 为 特征 向 量 (eigenvector) ，Xi 被 称 为 对 应 的 特征 值 (eigenvalue) 。 
这 可 以 看 成 M 个 齐 次 线性 方程 组 ， 解 存在 的 条 件 为 


4- XIl=0 (C.30) 


这 被 称 为 特征 方程 (characteristic equation) 。 由 于 这 是 和 的 MM 阶 多 项 式 ， 因 此 它 一 定 有 MM 个 解 
(虽然 这 些 解 未 必 不 同 ) 。A 和 的 秩 等 于 非 零 特 征 值 的 个 数 。 

我 们 特别 感 兴趣 的 是 对 称 矩 阵 。 协 方差 矩阵 、 核 矩阵 、Hessian 和 矩阵 都 是 对 称 和 矩阵 。 对 阵 矩 
阵 的 性 质 为 4;; = A4j; 或 者 等 价 地 ，A = 47 。 对 称 和 矩阵 的 逆 和 矩阵 也 是 对 称 的 。 将 474 = I 取 转 
置 ， 然 后 使 用 44_1 = TI 以 及 T 的 对 称 性 即 可 证 明 这 一 点 。 

通常 情况 下 ， 和 矩阵 的 特征 值 是 复数 。 但 是 对 于 对 称 和 矩阵， 特征 值 入 为 实数 。 这 点 可 以 用 下 面 
的 方式 证 明 。 首 先 将 公式 〈C.29) 左 乘 (wu?)”， 其 中 * 表 示 复 共 思 ， 我 们 可 以 得 到 


(Wi) 4us = Ni(ut) au (C.31) 
之 后 ， 我 们 对 公式 (C.29) 取 复 共 斩 ， 然 后 左 乘 w ， 可 得 
ul Au:* 一 Nul (C.32) 


推导 过 程 中 ,我 们 使 用 了 A” = 4， 因 为 我 们 只 考虑 实 对 称 和 矩阵 4。 将 第 二 个 方程 取 转 置 ， 使 
用 A”= 4， 我 们 看 到 两 个 方程 的 左 侧 相同 ， 从 而 X; = Xi ， 因 此 和 Xi 一 定 是 实数 。 
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实 对 称 和 矩阵 的 特征 向 量 wi 可 以 被 选 成 单位 正 交 的 〔 即 正 交 的 并 且 长 度 为 单位 长 度 ) ， 使 得 
Ul uj 一 Lij (C.33) 


其 中 是 单位 矩阵 I 的 元 素 。 为 了 证 明 这 一 点 ,我们 首先 将 公式 〈C.29) 左 乘 wf ， 得 到 


uT Au = NuT au (C3 
因此 ， 通 过 交换 下 标 ， 我 们 有 

uf Auj = NuT uy (C39) 
我 们 现在 对 第 二 个 方程 取 转 置 ， 使 用 对 称 性 质 47 = 4A， 然后 将 两 个 方程 相 减 ， 可 得 

(i— NW)uf uj =0 C9 


因此 ， 对 于 和 i; 关 和;， 我 们 有 wt wj; = 0， 因 此 ww 和 wj 是 正 交 的 。 如 果 两 个 特征 值 是 相等 的 ， 那 
么 任意 线性 组 合 oaui + Buj 也 是 一 个 有 着 相同 特征 值 的 特征 向 量 ， 因 此 我 们 可 以 任意 选择 一 个 线 
性 组 合 ， 然 后 选择 第 二 个 特征 向 量 正 交 于 第 一 个 〈 可 以 证 明 这 种 退化 的 特征 向 量 永远 不 会 线性 
相关 ) 。 因 此 特征 向 量 可 以 选择 为 正 交 的 ， 然 后 归 一 化 为 单位 长 度 。 由 于 有 M 个 特征 值 ， 对 应 
的 M 个 特征 向 量 组 成 了 一 个 完备 集 ， 因 此 任意 一 个 MM 维 的 向 量 者 可 以 表示 为 特征 向 量 的 线性 组 





我 们 可 以 令 特征 向 量 刀 是 M x M 的 和 矩阵， 根据 单位 正 交 性 ， 我 们 有 
UU=I (C.37) 
这 样 的 矩阵 被 称 为 正 交 的 (orthogonal) 。 有 趣 的 是 矩阵 的 行 也 是 正 交 的 ， 
即 UUT = 了。 为 了 证 明 这 一 点 ， 我 们 注意 到 ， 公 式 (C.37) 表明 U7UU 1!=U 1=U7, 因 
此 UUT! = UU = 了。 使 用 公式 (C.12) ,也 可 以 看 出 |U|= 1。 
特征 向 量 方程 (C.29) 可 以 使 用 品 表 示 成 下 面 的 形式 
AU=UA (C.38) 


其 中 A 是 一 个 M x M 的 对 角 和 矩阵 ， 对 角 线 上 的 元 素 为 特征 值 和 ;。 
如 果 我 们 考虑 一 个 列 向 量 x*， 它 经 过 正 交 和 矩阵 口 进 行 变换 ， 得 到 新 向 量 


t=Uz (C.39) 
变换 前 后 向 量 的 长 度 不 变 ， 因 为 
Lj=7r UT Uz= za (C.40) 
类 似 地 ， 任 意 两 个 向 量 的 角度 在 变换 前 后 也 不 变 ， 因 为 
Zio = 72 iUiUy= 7r!y (C.41) 


因此 ， 乘 以 DU 可 以 表示 为 坐标 系 的 刚性 旋转 。 
根据 公式 (C.38) 可 得 
UTAU=A (C.42) 


因为 A 是 对 角 和 矩阵 ， 我 们 说 矩阵 4 被 矩阵 品 对 角 化 (diagonalised) 。 如 果 我 们 左 乘 0 然 后 右 
乘 U 了 了 ， 我 们 有 


A=UAU’ (C.43) 
取 这 个 方程 的 逆 ， 然 后 使 用 公式 (C.3) 以 及 U7! = UT， 我 们 有 
4-1==UA-IUT (C.44) 
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最 后 两 个 方程 也 可 以 写成 


M 
= 
以 1 
A-1= De iu (C.40) 
De 


如 果 我 们 取 公 式 (C.43) 的 行列 式 ， 然 后 使 用 公式 (C.12) ,我 们 有 
M 
I4|= I» (C.47) 
i 二 1 
类 似 地 ， 取 公式 〈C.43) 的 迹 ， 使 用 迹 运 算 的 循环 性 (C.8) 以 及 LU = 工 我 们 有 
M 
Tr(4) = >》 Xi (C.48) 
i 二 1 


使 用 结论 (C.33) 、 (C.45) 、 (C.46) 和 “(C.47) ， 可 以 证 明 公 式 (C.22) ， 我们 把 证 明 留 给 
读者 作为 练习 。 

一 个 矩阵 A 被 称 为 正定 的 (positive definite) ， 记 作 4 > 0， 如 果 对 于 向 量 w 的 所 有 非 零 值 都 
有 Ww 4w > 0。 等 价 地 ， 一 个 正定 矩阵 的 所 有 特征 值 都 有 Xi > 0。 令 为 每 一 个 特征 向 量 ， 然 后 
注意 到 任意 的 向 量 都 可 以 展开 为 特征 向 量 的 组 合 ， 我 们 即 可 以 证 明 这 一 点 。 注 意 ， 正 定 不 同 于 
所 有 元 素 都 为 正 。 例 如 ， 和 矩阵 

G 1 (C.49) 


的 特征 值 为 Al 5.37 且 》a 、 一 0.37。 一 个 矩阵 被 称 为 半 正 定 的 (positive semidefinite) ， 如 果 对 
于 由 的 所 有 值 都 有 w7 4 > 0， 记 作 4 > 0。 它 等 价 于 Xi > 0。 
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图 D.1: 泛 函 的 导数 可 以 按照 如 下 的 方式 定义 : 考虑 函数 从 y(z) 变 化 到 y(z) + er(z) 时 ， 泛 函 忆 由 的 值 如 何 
变化 ， 其 中 7(z) 是 z 的 一 个 任意 的 函数 。 


D 附录 D. 变 分 法 


我 们 可 以 把 函数 y(z) 看 成 一 个 运算 符 。 对 于 任意 输入 rz， 这 个 运算 符 都 能 返回 一 个 输出 y。 使 
用 同样 的 方式 ， 我 们 可 以 定义 泛 沙 (functional) 也 是 一 个 运算 符 ， 这 个 运算 符 以 函数 y(7x) 作 
为 输入 ， 返 回 输出 王 。 泛 函 的 一 个 例子 是 二 维 平 面 中 的 一 条 曲线 的 长 度 ， 这 条 曲线 的 轨迹 要 根 
据 函 数 来 定义 。 在 机 器 学 习 领 域 ， 广泛 使 用 的 泛 函 是 连续 变量 x 的 炉 卫 [x]， 因 为 对 于 任意 松 
率 密度 通 数 p(X) 的 选择 ， 它 都 返回 一 个 标量 值 表示 这 个 概率 密度 下 zx 的 炉 。 因 此 ，p(7x) 的 灶 写 
成 五 四 也 一 样 没 错 。 

传统 的 微 积 分 中 的 一 个 常见 的 问题 是 找到 一 个 z 值 使 得 y(z) 取 得 最 大 值 或 者 最 小 值 。 类 似 
地 ， 变 分 法 中 ， 我 们 寻找 一 个 函数 y(7x) 来 最 大 化 或 者 最 小 化 泛 函 Ply]。 即 ， 对 于 所 有 可 能 的 通 
数 y(z)， 我 们 想 找到 一 个 特定 的 函数 ， 使 得 Fj 达到 最 大 值 或 者 最 小 值 。 变 分 法 可 以 用 来 说 明 
两 点 之 间 的 最 短路 径 是 一 条 直线 ， 或 者 最 大 粹 分 布 是 高 斯 分 布 。 

如 果 我 们 不 熟悉 普通 微 积分 的 规则 ， 那 么 我 们 在 求 传统 的 导数 下 时 ， 我 们 可 以 首先 让 变 
量 z 产 生 一 个 小 的 改变 <， 然 后 对 e 进 行 寡 级 数 展开 ， 即 





y(z+e) = y(7z)+ Ye + O() (D.D 


最 后 取 极限 e 一 0。 类 似 地 ， 对 于 一 个 多 变量 函数 y(z1,………,zD)， 对 应 的 偏 导数 通过 下 式 定 义 
D 
0 
y(Z1++e1,...,TD+ ED) = YT1,..., TD)+ 站 Fi 十 O(e2) (D.2) 
i=1 


类 似 地 ， 我 们 可 以 得 到 泛 通 的 导数 的 定义 。 当 我 们 对 通 数 y(z) 做 一 个 微小 的 改变 en(z) (其 
中 7(z) 是 z 的 一 个 任意 的 函数 ) 时 ,我 们 考虑 泛 函 下 ly 的 变化 ， 如 图 D.1 所 示 。 我 们 把 泛 函 了 ly] 关 
于 y(z) 的 导数 记 作 吉 后 ， 通 过 下 面 的 关系 定义 


FBGJ+aol= Pa) +e f Fi") e+ 0(©) D3) 


这 可 以 被 看 成 公式 (D.2) 的 一 个 自然 的 推广 ， 其 路 ly 现在 依赖 于 变量 的 一 个 连续 集合 ， 即 在 
所 有 Zz 处 的 y 值 。 令 泛 函 的 值 在 函数 y(z) 发 生 微小 改变 时 几乎 不 变 ， 可 得 

oF 

Bc dz 一 0 (D4 
由 于 这 必须 对 任意 的 7(z) 都 成 立 ， 因 此 我 们 必须 令 泛 函 的 导数 等 于 零 。 为 了 证 明 这 一 点 ， 让 我 
们 假设 选择 一 个 扰动 n(x)， 这 个 扰动 只 在 点 2 的 邻 域内 等 于 零 ， 在 其 他 各 处 均 不 等 于 零 。 这 种 情 
况 下 ， 泛 函 的 导数 必须 在 z = 2 处 等 于 零 。 但 是 ， 由 于 这 个 结论 必须 对 于 任意 的 2 都 成 立 ， 因 此 
泛 函 的 导数 必须 对 所 有 的 z 值 都 等 于 零 。 

考虑 一 个 泛 函 ， 这 个 泛 函 由 通 数 G(y,y ,7) 的 积分 定义 。 函 数 G(y,y ,XY) 既 依赖 于 y(7z) 又 依赖 

于 它 的 导数 y (zx)， 还 直接 依赖 于 。 因 此 ， 这 个 泛 函 的 形式 为 


P= | Cyl), v0),7) eo D5) 
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其 中 ， 我 们 假设 yz) 的 值 在 积分 边界 〈 可 能 是 无 穷 ) 处 是 定 值 。 如 果 我 们 考虑 通 数 y(z) 的 改 
变 ， 那 么 我 们 有 





到 se 
roa) toa) = gol+e 丰 且 rO+ 吕 ya az+oe ob 
我 们 现在 必须 把 它 转化 为 公式 D3) 的 形式 。 为 了 完成 这 一 点 ， 我 们 将 第 二 项 进行 分 部 积分 ， 
然后 使 用 /2) 必 须 在 积分 边界 处 等 于 堆 的 事实 《因为 yz) 在 边界 处 为 定 值 ) 。 因 此 
OG dd /9G 
Po + = Fyre {E(t oD) 


与 公式 (D.3) 对 比 ， 我 们 可 以 直接 读 出 泛 函 的 导数 。 令 泛 通 的 导数 等 于 零 ， 我 们 有 


2 训 1 ot (D.8) 
这 被 称 为 欧 拉 - 拉 格 朗 日 方程 《Buler-Lagrange equation) 。 例 如 ， 如 果 
Gn 0 
那么 ， 欧 拉 - 拉 格 朗 日 方程 的 形式 为 
四 二 (D.10) 


使 用 y(z) 的 边界 条 件 ， 我 们 可 以 解 出 这 个 关于 y(z) 的 二 阶 微分 方程 。 
通常 情况 下 ， 我 们 考虑 定义 在 积分 上 的 泛 函 时 ， 被 积 函数 的 形式 为 G(y,z)， 不 依赖 于 y(z) 的 
导数 。 这 种 情况 下 ， 驻 点 只 需要 令 到 2 = 0 对 于 所 有 的 z 都 成 立即 可 。 
如 果 我 们 关于 概率 分 布 对 泛 函 进行 优化 ， 那 么 我 们 需要 保持 概率 的 归 一 化 限制 。 使 用 拉 格 朗 





日 乘 数 法 来 进行 优化 是 最 方便 的 。 使 用 拉 格 朗 日 乘 数 法 之 后 ， 我 们 就 可 以 进行 无 限制 条 件 的 最 
优化 。 


上 述 结果 在 多 维 变 量 z 上 的 扩展 是 很 直接 的 。 对 于 变 分 法 的 一 个 可 理解 的 讨论 ， 可 以 参 
考 Sagan (1969) 。 
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FE 附录 E. 拉 格 朗 日 乘 数 法 


拉 格 朗 日 乘 数 法 (Lagrange multiplier) ， 有 时 也 被 称 为 不 确定 乘 数 法 (undetermined 
multiplier) ， 被 用 于 寻找 多 元 变量 在 一 个 或 者 多 个 限制 条 件 下 的 驻 点 。 
考虑 寻找 函数 f(z1, zz) 的 最 大 值 ， 其 中 zl 和 7z2 要 满足 一 定 的 限制 ， 限 制 的 形式 为 


g(zZl,zZa2) 王 0 (E.1) 


一 种 方法 是 求解 限制 方程 (E.1) ， 把 zz 表示 为 Zi 的 函数 ， 形 式 为 za = h(x1)。 这 之 后 就 可 以 代 
入 f(z1,72)， 变 为 关于 zl 单一 变量 的 函数 ， 形 式 为 f(x1, h(x1))。 关 于 x1 的 最 大 值 能 够 使 用 通常 
的 方法 用 微分 的 方式 求 出 ， 给 出 驻 点 值 Yf， 对 应 的 X2 的 值 为 23 = h(x1)。 

这 种 方法 的 一 个 问题 是 ， 把 z? 显 式 地 表示 为 Zi 的 函数 ， 即 找到 限制 方程 的 解析 解 很 困难 。 并 
且 ， 这 种 方法 把 zl 和 7z2 区 别 对 待 ， 这 破坏 了 这 些 变量 之 间 自 然 存在 的 对 称 性 。 

一 个 更 加 优雅 且 通 常 很 简单 的 方法 依赖 于 引入 一 个 被 称 为 拉 格 朗 日 乘 数 的 参数 \。 我 们 从 几 
何 角 度 来 说 明 一 下 这 个 方法 。 考 虑 一 个 DD 维 变量 2， 分量 为 z1,.….,zp。 限 制 方程 g(x%) = 0 表 
示 z 空 间 中 的 一 个 (D 一 1) 维 曲 面 ， 如 图 E.1 所 示 。 

我 们 首先 注意 到 ， 在 限制 曲面 上 的 任何 点 处 ， 限 制 函 数 的 梯度 Vg(z) 都 正 交 于 限制 曲面 。 为 
了 证 明 这 一 点 ， 考 虑 一 个 位 于 限制 曲面 上 的 点 z 以 及 这 个 点 附近 同样 位 于 曲面 上 的 点 z 十 e。 如 
果 我 们 在 点 z 处 进行 泰勒 展开 ， 那 么 我 们 有 


g(t +e) ~ g(r)+e Vo(z) (E.2) 


由 于 z 和 z 二 +e 都 位 于 限制 曲面 上 ， 我 们 有 g(x) = g(x 十 e)， 因 此 efVg(x) ~ 0。 在 极 
限 ||el| 一 0 的 情况 下 ,我 们 有 eVg(x) = 0。 由 于 e 平 行 于 限制 曲面 ， 因 此 我 们 看 到 向 量 V9 正 交 
于 曲面 。 

接 下 来 我 们 寻找 限制 曲面 上 的 一 个 点 2* 使 得 (x) 最大。 这 样 的 一 个 点 一 定 满足 这 样 的 性 
质 : 向 量 Vf(zx) 也 正 交 于 限制 曲面 ， 如 图 E.1 所 示 ， 因 为 如 果 这 个 性 质 不 满足 的 话 ， 我 们 就 可 以 
沿 着 限制 曲面 移动 一 个 较 短 的 距离 来 使 (zx) 增 大 。 因 此 Vf 和 Vg 是 平行 的 (或 者 反 平 行 的 ) 向 
量 ， 因 此 一 定 存在 一 个 参数 和 使 得 











Vj+AV9=0 (上 .3) 


其 中 和 关 0 被 称 为 拉 格 庆 日 乘 数 (Lagrange multiplier) 。 注 意 ， 和 的 符号 任意 。 
这 里 ， 因 数 一 个 拉 格 朗 日 函数 比较 方便 。 拉 格 朗 日 函数 定义 如 下 


L(x,N) = f(x) + Mg(z) (E.4) 


公式 (E.3) 给 出 的 函数 驻 点 处 的 条 件 可 以 通过 令 VasL = 0 来 得 到 。 更 进一步 ,条件 总 = 0 会 导 
出 限制 方程 9(x) = 0。 


Vf(x) 


XA 


g(x)=0 


图 E.1: 拉 格 朗 日 乘 数 法 的 集合 说 明 ， 其 中 我 们 寻找 函数 1(z) 的 最 大 值 ， 满 足 限制 条 件 g(x) = 0。 如 
果 z 是 DD 维 的 ， 那么 限制 条 件 g(xz) = 0 对 应 于 D 一 1 维 的 子 空间 ， 用 红色 曲线 表示 。 问 题 可 以 通过 最 优化 
拉 格 朗 日 函数 L(z, 入 ) = f(z) + Xg(z) 的 方式 求 出 。 
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图 E.2: 使 用 拉 格 朗 日 乘 数 的 一 个 简单 的 例子 ， 其 中 目标 是 最 大 化 f(zx1,x2) =1- 好 一 zz 满足 限 制 
条 件 g(zx1, 7x2) = 0， 其 中 g(z1,22) = x1 十 xz2 一 1。 圆 形 表示 函数 (zx1, x2) 的 轮廓 线 ， 对 角 线 表 示 限 制 曲 
面 g(x1, Z2) = 0。 





图 E.3: 满足 不 等 式 限制 条 件 g(z) > 0 下 ， 最 大 化 f(x) 的 问题 的 例子 。 





因此 为 了 寻找 函数 ffz) 在 限制 条 件 g(z) = 0 下 的 最 大 值 ， 我 们 定义 了 公式 (E.4) 给 出 的 拉 
格 朗 日 函数 ， 并 且 我 们 能 够 找到 L(x, 和) 关于 z 和 的 驻 点 。 对 于 一 个 DD 维 向 量 z， 这 种 方法 给 出 
了 D + 1 个 方程 确定 驻 点 z* 和 和 的 值 。 如 果 我 们 只 对 z* 感 兴趣 ， 那 么 我 们 可 以 从 函数 驻 点 处 的 方 
程 (E.3) 中 消去 和 ， 不 需要 找到 它 的 值 (因此 有 了 术语 “不 确定 乘 数 法 ”) 。 

作为 一 个 简单 的 例子 ,假设 我 们 想 找到 函数 f(z1,72) = 工 -好 -zx 在 限制 条 
件 g(ziza) = zi 十 x2 一 1 二 0 下 的 驻 点 ， 如 图 E.2 所 示 。 对 应 的 拉 格 朗 日 函数 为 








L(x,N)=1— zf?—z3+A(ri+ v2 — 1) (E.5) 
这 个 拉 格 朗 日 函数 关于 z1, zz 和 和 的 驻 点 处 的 条 件 有 下 列 方程 给 出 
-2zl 十 和 =0 (E.0) 
—272 二 入 =0 (E.7) 
Z1 十 Z2 一 1 一 0 (E.8) 


这 些 方程 的 解 给 出 了 驻 点 (zx1, 性 ) = (3, 雪 )， 对 应 的 拉 格 朗 日 乘 数 为 = 1。 

目前 为 止 , 我 们 已 经 考虑 了 在 形式 为 gq(z) = 0 的 等 式 限制 (equality constraint) 下 最 大 化 
函数 的 问题 。 我 们 现在 考虑 形式 为 gz) > 0 的 不 等 式 限制 (inequality constraint) 下 最 大 化 函 
数 故 z) 的 问题 ， 如 图 BE.3 所 示 。 

根据 受 限制 条 件 下 的 驻 点 是 否 位 于 区 域 g(z) > 0 中 ， 有 两 种 可 能 的 解 。 如 果 驻 点 位 
于 9g(z) > 0 的 区 域 中 ， 我 们 说 限制 条 件 未 激活 (inactive) 。 如 果 驻 点 位 于 g(z) = 0 的 边界 上 ， 
我 们 说 限制 条 件 激活 (active) 。 在 第 一 种 情况 下 ， 函 数 g(z) 不 起 作用 ， 函 数 在 驻 点 处 的 条 
件 只 是 Vf(z) = 0。 这 同样 对 应 于 拉 格 朗 日 方程 (E.4) 的 驻 点 ， 但 是 和 = 0。 在 后 一 种 情况 
下 ， 解 位 于 边界 上 ， 这 类 似 于 之 前 讨论 过 的 等 式 限制 的 情形 ， 对 应 于 拉 格 朗 日 方程 (E.4) 
在 入 埃 0 的 条 件 下 的 驻 点 。 但 是 现在 ， 拉 格 朗 日 乘 数 的 符号 很 重要 ， 因 为 只 有 当 梯 度 向 量 指向 远 
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离 9(z) > 0 的 区 域 时 ， 画 数 几 z) 才 会 取得 最 大 值 ， 如 图 已 3 所 示 。 于 是 对 于 某 些 ^ > 0， 我 们 
有 Vf(z) = 一 XV9(Z)。 

对 于 两 种 情况 中 的 任意 一 种 ， 乘 积 xg(z) = 0。 因 此 在 限制 条 件 g(xz) > 0 下 最 大 化 f(x) 的 问 
题 的 解 可 以 通过 下 面 的 方式 获得 : 关于 zx 和 和 最 优化 拉 格 朗 日 函数 (E.4) ， 限 制 条 件 为 


g(zZ) 过 0 (上 .9) 
入 >0 (E.10) 
Mg(¥)=0 (E.11) 


这 些 被 称 为 Karush-Kuhn-Tucker (KKT) 条 件 (Karush, 1939; Kuhn and Tucker, 1951) 。 

注意 ， 如 果 我 们 想 在 不 等 式 限制 9(z) > 0 下 最 小 化 (而 不 是 最 大 化 ) 函数 1(x)， 那 么 我 们 要 
关于 z 最 小 化 拉 格 朗 日 函数 L(x, 入 ) = f(x) 一 和 g(x)， 限 制 条 件 为 ^ > 0。 

最 后 ， 将 拉 格 朗 日 乘 数 法 的 技术 推广 到 多 个 等 式 限制 和 不 等 式 限 制 的 情形 是 很 直接 的 。 假 设 
我 们 希望 在 限制 条 件 为 9;(x) = 0,7 = 1,.….,J 和 hx(zx) > 0,k 二 1,..., 玉 的 情况 下 最 大 化 f(z)， 
我 们 就 会 引入 拉 格 朗 日 对 数 {和 j} 和 {jx}， 然 后 最 优化 下 面 的 拉 格 朗 日 函数 


a Kk 
L(x, {XN}, {pxD) = f(z) + > Ng9;(2) + > Hpk(z) (E.12) 
j=1 大 一 | 


限制 条 件 为 > 0 且 jxhx(z) = 0 有 三 1 天。 推广 到 有 限制 条 件 下 的 泛 函 的 导数 的 情况 也 与 
此 类 似 。 关 于 拉 格 朗 日 乘 数 法 的 更 加 详细 的 讨论 ， 请 参考 Nocedal and Wright (1999) 。 
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